请选择 进入手机版 | 继续访问电脑版

ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 微信、QQ、手机号一键注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

查看: 211|回复: 0

SRE到底需要哪些必要的工具?

[复制链接]
发表于 2020-11-21 14:12:11 | 显示全部楼层 |阅读模式
     ' t; a* R& b2 g9 c( }
写在前面最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。0 @  p0 _7 E  \. U! H  R3 C/ K
书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上、错误预算、命运之轮、事故总结等等,对于从业者有很大的启发。书中提到了很多思想,也提到了很多工具,我想不同的单位有不同的文化、制度背景,这种指导思想未必能够执行,但是书中提到的工具,却有被其他人利用的可能。因此,我就整理了书中提到的一些工具以及搜索是否有对应的开源工程,整理成下面的列表供大家参考。
6 j" x" B! b! z5 f& F& @如果大家发现有不全的,或者对于某个工具希望深入讨论的,欢迎给我留言。
5 P9 _/ c7 Q7 u3 wGoogle 技术栈功能介绍产品对标的开源产品备注
2 o" M" `6 {" f; v0 i, K分布式共识系统、分布式锁服务Chubby 书中描述为强一致性存储系统ZooKeeper、Consul
2 {& |  R" e2 Z( R- r% `监控服务BorgmonPrometheus、Riemann、Heka、Bosun
8 Q" L( ^# _% y. YPhoton
$ s1 e0 D. O# M$ W; [. K9 l分布式周期性任务系统Cron0 [' ]' e6 h. q* M; d- v
任务分发系统,集群管理系统Borg% v" x0 {; s' q& ~5 |9 |( e; W+ j5 p
分布式文件系统GFS8 k- O1 ~; z' C) y, q
Mesos8 h. b" ?/ h: p5 F' {9 o5 L+ T
管理报警响应及升级规则Escalator/ V% P; F0 U5 [/ L! D6 k8 e
故障跟踪工具(被动收集监控系统发出的所有报警信息,同时提供标记、分组和数据分析功能)Outalator8 b$ g. D% A7 {% K( p/ n
数据流水线MapReduce、Flume
7 F6 L6 f* ?0 o5 Q1 t2 W# }大规模数据处理WorkflowSpanner ?
& G2 n- o; w. V! n& O8 |: AIncident Command System
3 l) B1 v8 V( T/ t. c' d$ C8 s构建系统Bazel
. ]# f5 M3 M+ ^8 q4 |分布式文件系统GFSBorg    调度服务(2003),开源产品 Kubernetes
$ O+ _: I6 h, TBorg Name Service BNS 名称解析系统% M4 ^% o, P, K# |- _
Bigtable
1 D. ?2 Y1 f+ Y3 G, A/ J: N' q$ ~Blaze/Bazel 构建* F# B2 @6 K9 X; I  l4 m% p- P" z
Rapid 发布
4 O+ d* u9 y. y; ^" ZMidas Pacakge Management MPM 打包9 y$ I8 z, G# D) S
Sisyphus 发布自动化框架5 y; c4 i: S2 b* o8 |/ E
Chubby 强一致性存储系统
1 Z& O9 L3 P( K, V! [Prober 端到端检测(黑盒监控 Black Box Monitoring)$ L  p2 U8 p2 [! Z4 [  J
Protocol Buffer (Protobuf)
. T" }  k) R" l# }$ rAlert Manager 报警管理服务; B/ N/ M/ {1 `* C# S
Dapper 分布式组件跟踪工具; h. L4 H+ o1 l5 K
Incident Command System 应急事件管理
" K$ |/ w2 c- y2 Z* GIRC机器人. r7 W6 n4 ?) p7 n9 f' b
Dagger 依赖注入(Dependency Injection)工具+ B$ ?2 _$ M- D+ K
Protocol Buffer 数据交换格式
1 l# d  P' j0 ^! h& M, nAuxon 自动化容量规划0 h3 S* C4 v; k' U0 m7 M* x# u
gRPC Google RPC 框架
* y. u% W! Z+ C0 b; fDoorman 协作性分布式客户端节流系统
2 p8 w" ]4 K1 y! |! C8 ]% F! c' OZipking 业务流追踪
# e+ H1 M# Y0 F/ P7 j* bStackdriver
' D' ^# r8 l* l' z两点吐槽一、绕口的翻译  x( E& i* Y1 v0 M
P158:一个测试系统可以检测出一个MTTR为0的Bug。
0 I) G) [4 J2 e4 NP253:这种设计类型在服务领头人的工作量是分片的。% D0 e" h- P$ l) x4 `
P327:Google几乎没有处理大规模消费者产品运行不能直接控制的客户端代码的经验。
/ M' O4 i& ^8 n- i" P二、强大的客户端- E4 p. r; w5 ]0 Z" Y! [
6 Z* e/ \2 D3 J6 b
全书各章节及小评章节及名称感想. v( `) m" c# [5 p' q4 P- I
1 介绍
0 P9 ?4 R$ P- {9 _2 Google 生产环境:SRE视角
7 J! y& g' d7 F3 拥抱风险
1 ]4 M5 ], g/ B! x3 s0 Y4 h4 服务质量目标& O- N+ n2 a8 s* k0 Q9 O. ~2 ]* z# l( L
5 减少琐事4 d, X/ y! z& U. k: A
6 分布式系统的监控
) Z# r) H% i5 o) a8 H1 ?" f7 Google 的自动化系统演进自动化的价值,自动化的层次
2 N6 R4 i9 s' B5 f1 V0 i) o+ N8 发布工程
* G7 @2 R3 C, ?. W0 w! t) i0 [9 简单化
  M- c' m  M2 J- U4 z# X10 基于时间序列数据进行有效报警9 V; S$ J; F' [% P
11 on-call 轮值
1 U. ]4 g3 d( t$ V12 有效的故障排查手段' R0 j8 I9 j# _8 f
13 紧急事件响应
. J& G9 ^6 |$ o% t, @3 c14 紧急事故管理8 t6 e5 P( v7 }
15 事后总结:从失败中学习
& @; C" w9 J: {; K16 跟踪故障
2 U$ W! Z" m7 H! H) y0 G17 测试可靠性
4 w/ x* f8 O5 i. o, n3 N18 SRE部门中的软件工程实践) R6 H5 J8 o- O! }+ d4 b: k$ @
19 前端服务器的负载均衡不同数据中心之间的负载均衡策略最佳实践,基本的方案有DNS、VIP(网络负载均衡器 F5)
; k9 ^! N" a. ]  Y, B6 d+ N, Q) j20 数据中心内部的负载均衡系统从应用层面谈如何进行负载均衡,如何让各台服务器的使用率更加均衡,避免出现闲忙不均的情况。如何更准确的识别出后端的真实状态的方法:跛脚鸭状态。
+ u$ D- N, h/ V% [21 应对过载; L3 d- f% D/ |# @$ l" h5 f$ v
22 处理连锁故障
- \) j) n( Y# s2 F, K( {* }23 管理关键状态:利用分布式共识来提高可靠性
; j/ |( b. R; K) L5 X24 分布式周期性任务系统; `) k/ y; x& u5 P: r$ S, @
25 数据处理流水线
1 Z% ?3 P. ^$ H9 H$ v& D26 数据完整性:读写一致0 K6 {8 y% D6 Q& w# ]
27 可靠地进行产品的大规模发布1 T( g4 F, ?) N2 w& O
28 迅速培养SRE加入on-call$ x7 U* O! p8 q7 {% O- |5 z% t
29 处理中断性任务) |6 f0 M* ^# z9 R3 ?" |  _
30 通过嵌入SRE的方式帮助团队从运维过载中恢复3 b: R" ]% G' y$ b
31 SRE与其它团队的沟通与协作) q& i+ L6 B3 f6 S
32 SRE参与模式的演进历史! H. T8 Q: k$ j5 c) m" X1 e; S
33 其他行业的实践经验
# W4 C: P: K* E* Z5 H/ H34 结语
2 t' H, s* [: `" e% d! q1 R5 c4 C% Q$ \

6 u# Y$ @: \9 A2 n6 q# k
( C) ?" n3 ]  b! I




上一篇:神速的蚂蚁SRE团队
下一篇:去除谬见:对SRE的误解分析

本版积分规则

本站关键字: ITIL| ITSM| ISO20000| ITIL培训| ITIL认证| ITIL考试| ITSS| ITSS培训| ITSS认证| IT运维管理| DevOps| DevOps培训| DevOps认证| itop| itil4| sre| 开源ITSM软件

QQ|小黑屋|手机版|Archiver|艾拓先锋网 ( 粤ICP备11099876号-1 )|网站地图

Baidu

GMT+8, 2021-3-9 14:45 , Processed in 0.148639 second(s), 30 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表