请选择 进入手机版 | 继续访问电脑版

ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 微信、QQ、手机号一键注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

查看: 227|回复: 0

运维人员和最终用户各关心什么

[复制链接]
发表于 2020-12-3 23:36:08 | 显示全部楼层 |阅读模式
我们不应该将监控系统中的所有指标都定义为 SLI;只有理解用户对系统的真实需求才能真正决定哪些指标是否有用。指标过多会影响对那些真正重要的指标的关注,而选择指标过少则会导致某些重要的系统行为被忽略。一般来说,四五个具有代表性的指标对系统健康程度的评估和关注就足够了。
5 u9 V3 R- A# s' `( c
" @6 c  r$ B& e: Z; n2 u1 @常见的服务,根据它们的相关 SLI通常会归类为以下几个大类。
* @1 d0 q1 \" ]! e5 W' }
* R( c  [. n% u# ]5 V
  • 用户可见的服务系统,例如莎士比亚搜索服务的前端服务器通常关心可用性、延迟,以及吞吐量。换句话说∶是否能正常处理请求?每个请求花费的时间是多少?多少请求可以被处理?
  • 存储系统通常强调∶延迟、可用性和数据持久性。换句话说∶读写数据需要多少时间?我们是否可以随时访问数据?数据是否一段时间内还能被读取 ? 扩展讨论参见第 26 章。
  • 大数据系统,例如数据处理流水线系统,一般来说关心吞吐量和端到端延迟。换句话说∶处理了多少数据?数据从输入到产出需要多少时间?(某些流水线任务还会关注某个单独处理阶段的延迟。)
  • 所有的系统都应该关注∶正确性。是否返回了正确的回复,是否读取了正确的数据,或者进行了正确的数据分析操作。正确性是系统健康程度的一个重要指标,但是它更关注系统内部的数据,而不是系统本身,所以这通常不是SRE 直接负责的。4 n3 r, {' i) u: {
0 g- f! ~7 I3 j; u
利用某种监控系统,大部分指标数据都在服务器端被收集,例如Borgmon(具体参见第10章)或者Prometheus。或者利用某种日志分析系统,例如分析日志中HTTP500回复所占的比例。然而,某些系统可以加入对客户端数据的收集,否则可能会错失一些不影响服务器端指标,但是对用户产生影响的问题。例如、只关注莎士比亚服务器搜索后端的延迟可能会错失由页面JavaScript脚本导致的用户可见的延迟问题。在这个例子中,度量页面在浏览器中可用的延迟是度量用户体验的一个更好的指标。; d9 z- b  r) `; ?1 K




上一篇:SLO与SLA服务级别协议的关系
下一篇:如何汇总SLO服务质量目标

本版积分规则

本站关键字: ITIL| ITSM| ISO20000| ITIL培训| ITIL认证| ITIL考试| ITSS| ITSS培训| ITSS认证| IT运维管理| DevOps| DevOps培训| DevOps认证| itop| itil4| sre| 开源ITSM软件

QQ|小黑屋|手机版|Archiver|艾拓先锋网 ( 粤ICP备11099876号-1 )|网站地图

Baidu

GMT+8, 2021-1-20 09:16 , Processed in 0.152980 second(s), 30 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表