请选择 进入手机版 | 继续访问电脑版

ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 微信、QQ、手机号一键注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

查看: 272|回复: 0

SRE的耳目:监控系统

[复制链接]
发表于 2020-11-25 21:43:36 | 显示全部楼层 |阅读模式
监控系统是SRE 团队监控服务质量和可用性的一个主要手段。所以,监控系统的设计策略值得着重讨论。最普遍的和传统的报警策略是针对某个特定的情况或者监控值,一旦出现情况或者监控值超过阈值就触发 E-mail警报。但是这样的报警策略并不是非常有效∶一个需要人工阅读邮件和分析警报来决定目前是否需要采取某种行动的系统从本质上就是错误的。监控系统不应该依赖人来分析警报信息,而是应该由系统自动分析,仅当需要用户执行某种操作时,才需要通知用户。; Q2 s8 ?6 s# w8 J8 M) z
7 |. p- U8 Z. A3 g$ U. {7 c5 R: u
一个监控系统应该只有三类输出。% h. ?! X' U6 e" }  p- C
紧急警报(alert)
" g: H% b! i" a- O/ E: V$ \& |, W意味着收到警报的用户需要立即执行某种操作,目标是解决某种已经发生的问题,或者是避免即将发生的问题。. d5 C- q: d! \% F; M1 I
工单(ticket)$ Z* Z1 ^( R' Y, M/ e
意味着接受工单的用户应该执行某种操作,但是并非立即执行。系统并不能自动解决目前的情况,但是如果一个用户在几天内执行这项操作,系统不会受到任何影响。( d' w4 K# V" H6 K: t$ q+ u# V  Z
日志(logging)
" |6 O+ H7 _4 e/ I. Y8 z8 h$ _平时没有人需要关注日志信息,但是日志信息依然被收集起来以备调试和事后分析时使用。正确的做法是平时没人会去主动阅读日志,除非有特殊需要。5 t# L! X: Y+ [8 x* x1 Z




上一篇:在保障服务 SLO 的前提下最大化迭代速度
下一篇:SRE日常工作:应急事件处理

本版积分规则

本站关键字: ITIL| ITSM| ISO20000| ITIL培训| ITIL认证| ITIL考试| ITSS| ITSS培训| ITSS认证| IT运维管理| DevOps| DevOps培训| DevOps认证| itop| itil4| sre| 开源ITSM软件

QQ|小黑屋|手机版|Archiver|艾拓先锋网 ( 粤ICP备11099876号-1 )|网站地图

Baidu

GMT+8, 2021-1-22 03:50 , Processed in 0.152455 second(s), 30 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表