请选择 进入手机版 | 继续访问电脑版

ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 微信、QQ、手机号一键注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

搜索
查看: 125|回复: 0

工具栈,实施SRE的不可或缺

[复制链接]
发表于 2020-11-19 16:39:07 | 显示全部楼层 |阅读模式
写在前面

最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。

书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上、错误预算、命运之轮、事故总结等等,对于从业者有很大的启发。书中提到了很多思想,也提到了很多工具,我想不同的单位有不同的文化、制度背景,这种指导思想未必能够执行,但是书中提到的工具,却有被其他人利用的可能。因此,我就整理了书中提到的一些工具以及搜索是否有对应的开源工程,整理成下面的列表供大家参考。

如果大家发现有不全的,或者对于某个工具希望深入讨论的,欢迎给我留言。

Google 技术栈
2 q6 u" `& q6 J0 \3 M
功能介绍
产品
对标的开源产品
备注

; N: q' ?3 |5 ^! {7 K' i: D8 \
分布式共识系统、分布式锁服务
Chubby 书中描述为强一致性存储系统
ZooKeeper、Consul

* ?- a8 F1 f! S% [3 m- G! r: i监控服务
Borgmon
Prometheus、Riemann、Heka、Bosun
3 |% J- h& q% n9 @1 N6 o. t
Photon

" t; `1 }. ^+ x. G6 A% n分布式周期性任务系统
Cron
8 W# E; P4 {' c, d1 H/ E6 R
任务分发系统,集群管理系统
Borg

* U7 Y6 P; d6 N1 `- P% l+ m" g+ |' R分布式文件系统
GFS

. X% P% ?" d( z0 MMesos

/ V( i' p* p6 C* B% H9 l/ P  e6 p管理报警响应及升级规则
Escalator
9 H6 e* N7 d7 v" n, r
故障跟踪工具(被动收集监控系统发出的所有报警信息,同时提供标记、分组和数据分析功能)
Outalator
% q3 p  E. J) U) ?- ^# L
数据流水线
MapReduce、Flume

6 `. j, h, h* B1 k1 B+ R大规模数据处理
Workflow
Spanner ?
3 v+ I' x: {5 S
Incident Command System

0 u  P- F9 t8 S' M  Z, v4 D3 Z构建系统
Bazel

4 y8 Y+ o8 e9 C7 `$ @分布式文件系统
GFS

1 [5 x0 z" \6 V0 R3 E$ D' s

Borg 调度服务(2003),开源产品 Kubernetes
0 r# j- K9 u! {5 E+ }" i Borg Name Service BNS 名称解析系统% z1 s0 I! C  T8 `! o
Bigtable8 o* r1 \8 V8 n$ f) n/ {
Blaze/Bazel 构建# n2 ~; \! l/ J# p
Rapid 发布! I8 @% C& H3 b% i# q
Midas Pacakge Management MPM 打包  X' y1 F! v1 d
Sisyphus 发布自动化框架" ^: R& U2 {# v* v9 P
Chubby 强一致性存储系统4 U, E5 ~( Y" V0 F0 C; i
Prober 端到端检测(黑盒监控 Black Box Monitoring)$ u5 d0 ~7 P1 V; R2 p- X8 Y
Protocol Buffer (Protobuf)
; u% T$ j: u# q& W0 T Alert Manager 报警管理服务
! A7 J6 Z4 v# U4 |4 v% _ Dapper 分布式组件跟踪工具
' e: |8 {2 F# W4 T* y- Q Incident Command System 应急事件管理
. O1 s& J! f7 H; f$ `& H$ { IRC机器人
- E! l9 o) O5 S; d4 T' ]$ Z$ s, ]- F Dagger 依赖注入(Dependency Injection)工具
# J# F" B$ r9 t4 Z9 h5 B5 P7 ^3 O% [ Protocol Buffer 数据交换格式, m+ g; f% t5 Q) w. K4 S
Auxon 自动化容量规划
0 |; v& A0 _/ }4 S1 Y% b gRPC Google RPC 框架
3 j# V$ D+ y' `7 ]; ?$ ~ Doorman 协作性分布式客户端节流系统& N2 _4 o* H' t
Zipking 业务流追踪" b" Q9 _  K" M* F$ h, w- X
Stackdriver

两点吐槽

一、绕口的翻译
6 H' E3 ^) n# i3 v* k& ` P158:一个测试系统可以检测出一个MTTR为0的Bug。3 Z% H. I5 s3 o2 I
P253:这种设计类型在服务领头人的工作量是分片的。/ E- ^( w2 B' K) {; M" [8 e
P327:Google几乎没有处理大规模消费者产品运行不能直接控制的客户端代码的经验。

二、强大的客户端
4 O6 r6 g" F9 F- q% s, z* U3 l

全书各章节及小评
章节及名称
感想
1 r# z1 B! i+ h/ y/ `' }
1 介绍

& f7 D2 u2 i  F, {8 x$ I; N- W2 Google 生产环境:SRE视角

3 T0 n; z: e8 z% u& b  j3 拥抱风险

0 Z7 Q* w# k4 I1 h' ]6 u. t4 服务质量目标
- M0 j1 Q' \% e0 O, i
5 减少琐事

- |9 B" g. g3 [; {3 a6 分布式系统的监控

, z9 h5 V7 R; O2 \8 Q6 C7 Google 的自动化系统演进
自动化的价值,自动化的层次
, \6 D& F+ d/ ^4 v" `# [  h
8 发布工程
8 K  m! R% l1 L* {, L2 w) b
9 简单化

! D& M3 I) o" a7 @7 u10 基于时间序列数据进行有效报警
  g9 y2 N; d: J% Q
11 on-call 轮值

4 N: ^. y9 V* D% D( i/ s3 @; o12 有效的故障排查手段
0 \; A6 }4 q1 S: G7 J
13 紧急事件响应
' {$ R0 Z# r4 \! F( y) b  @2 G
14 紧急事故管理
" D& g7 _4 o$ [8 S8 _0 O
15 事后总结:从失败中学习

4 N) C* I9 G! w0 v: I16 跟踪故障

! h5 N& |3 E: T+ s, p& U4 ~/ x7 D0 t" l17 测试可靠性
5 ^: f) E' ^$ O, m' ~
18 SRE部门中的软件工程实践

' B" N- ?9 N7 A$ [0 k: ?4 D8 }8 g( z19 前端服务器的负载均衡
不同数据中心之间的负载均衡策略最佳实践,基本的方案有DNS、VIP(网络负载均衡器 F5)
( s" p9 i  L; h" ?# x+ @3 `
20 数据中心内部的负载均衡系统
从应用层面谈如何进行负载均衡,如何让各台服务器的使用率更加均衡,避免出现闲忙不均的情况。如何更准确的识别出后端的真实状态的方法:跛脚鸭状态。
1 R) W' K( k5 Z; b3 H# y' j! `; K5 r
21 应对过载

' D, R5 x, U. C0 K4 z7 p! y22 处理连锁故障
  V( x3 E4 a' q3 v, B& x
23 管理关键状态:利用分布式共识来提高可靠性
" l1 W5 \" k, H( @* _$ o
24 分布式周期性任务系统
& F9 C* h& z$ D7 V
25 数据处理流水线
7 s3 \) D$ {7 Q: I- N
26 数据完整性:读写一致

) a' f9 w) q2 s! q1 I+ R) a27 可靠地进行产品的大规模发布
: [( F. J& B5 \! D; j. u& f! y9 t1 `9 A
28 迅速培养SRE加入on-call
. l0 h5 ~6 a7 Q% I' Q
29 处理中断性任务

; w; A6 K0 q, x7 N30 通过嵌入SRE的方式帮助团队从运维过载中恢复
! s( s  w1 s& Z* c
31 SRE与其它团队的沟通与协作

! o4 O1 o7 `. O+ k32 SRE参与模式的演进历史
8 t2 J/ L4 K: ]" [
33 其他行业的实践经验

0 P' c7 j, Q7 N- R0 P34 结语

. ^1 E. i' t6 v+ G
+ @- z% E/ k  ~( ^

& M8 f; a. ~4 I2 F2 r8 z% H* O5 G7 b




上一篇:SRE概念快速普及
下一篇:SRE基础知识快速普及

本版积分规则

本站关键字: ITIL| ITSM| ISO20000| ITIL培训| ITIL认证| ITIL考试| ITSS| ITSS培训| ITSS认证| IT运维管理| DevOps| DevOps培训| DevOps认证| itop| itil4| 开源ITSM软件

QQ|小黑屋|手机版|Archiver|艾拓先锋网 ( 粤ICP备11099876号-1 )|网站地图

Baidu

GMT+8, 2020-11-28 03:51 , Processed in 0.147839 second(s), 25 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表