




全书分为基础篇与实践篇,围绕服务质量目标(SLO)展开方法论阐述,提出通过定义错误预算、设计监控告警策略及自动化运维流程保障系统可靠性。基础篇详述SLO实施路径与故障预算管理框架;实践篇覆盖值班机制、事故响应流程及团队协作模式,结合Evernote等企业案例探讨转型路径 [4]。书中还针对运维琐事消除、系统复杂性简化的挑战,强调工具开发与文化协同并重的解决方案。
你将会学到:如何在你无法完全掌控的云环境里运行可靠的服务。在你创建、监控和运行服务的过程中践行服务质量目标。如何将现有运维团队转型为SRE,包括发掘出运营的*价值。从绿地或者棕地上启动SRE的方法。
点击下载