请选择 进入手机版 | 继续访问电脑版

ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 微信、QQ、手机号一键注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

查看: 416|回复: 2

SRE的基本指导思想

[复制链接]
发表于 2020-11-25 22:52:32 | 显示全部楼层 |阅读模式
本部分将描述 SRE日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。
: a& P- }: @# F% N8 v$ l; w8 c0 M3 _+ \+ j9 l3 M
本部分的第一章(第3章)是最重要的一章。这一章从最广泛的角度描述了SRE的日常工作,以及背后的指导思想。这一章从"风险"入手,描述了如何评估风险、管理风险,以及利用错误预算的手段来推进中立性的服务运维。
9 e2 e+ Y! V/ r# C  L/ Y+ _# A) O3 R. [1 \- c( C
服务质量目标(SLO)是 SRE 的另外一个基本概念。运维行业经常会将一系列离散的概念都归结为服务质量协议(SLA),这样使得讨论变得很复杂。第4 章试图将 SLO与SLA区分开来,详细描述 SRE 是如何区分这两个术语的,同时针对应用程序性能指标的选择提供了一些建议。: \( x# @/ k$ r* V5 A( w5 z

% w; X# Q5 S2 ?( M8 J$ r6 u8 P" s7 N消除琐事(toil)是SRE的一项重要工作,详情请参见第 5章。我们将琐事定义为无聊、重复性的运维工作,这些工作通常不具有长期价值,而且会随着服务规模的扩大而增长。
/ q" ^, f, v8 D) S4 ], q
/ O. E* k0 m" y% f$ S' o对Google 或者其他任何一个公司来说,监控系统都是运维生产环境必不可少的组件。如果没有针对服务的监控,就无从得知目前服务的状态,如果不知道服务的状态,就无从谈起维护服务的可靠性。第6章描述了监控的手段和目标、以及一些与具体实现无关的最佳实践。1 u8 \$ w2 f9 A, D' S' _
7 c8 h  R5 E% q9 ^' y3 f' c
第7章描述了Google SRE进行自动化工作的方法论。这一章同时讨论了SRE在自动化过程中的一些成功和失败的案例。
4 [; [* h) o7 l7 J2 `( G6 C4 B2 c  u/ a# q+ Q
大部分公司不太重视发布工作。然而,在第8章中,我们可以看到,发布工作是整体系统稳定性的一个关键环节,因为大部分故障都是由于新的变更引起的。在这方面的投入也可以保障每次发布的顺利进行。
5 l8 W5 j, X3 R8 T9 v




上一篇:莎士比亚搜索∶SRE负责的一个示范服务
下一篇:如何管理IT系统可靠性风险

本版积分规则

本站关键字: ITIL| ITSM| ISO20000| ITIL培训| ITIL认证| ITIL考试| ITSS| ITSS培训| ITSS认证| IT运维管理| DevOps| DevOps培训| DevOps认证| itop| itil4| sre| 开源ITSM软件

QQ|小黑屋|手机版|Archiver|艾拓先锋网 ( 粤ICP备11099876号-1 )|网站地图

Baidu

GMT+8, 2021-3-7 10:12 , Processed in 0.152925 second(s), 28 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表