当前位置: 首页 > 更多 > 运维

SRE:Google运维解密 pdf电子书

简介SRE:Google运维解密pdf百度网盘下载地址? 大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE...
《SRE:Google运维解密》pdf电子书下载
《SRE:Google运维解密》pdf百度云

《SRE:Google运维解密》pdf百度云


 

SRE:Google运维解密pdf百度网盘下载地址?

大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。

任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。


作者简介:
Betsy Beyer 是Google 纽约负责SRE 的一名技术文档作家。她之前曾为遍布全球的Google 数据中心与Mountain View 硬件运维团队编写文档。在搬到纽约之前,Betsy 是Stanford 大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane 获得学历。 Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一个PaaS 服务,每天处理超过280 亿个请求。他的办公室在旧金山,他之前的工作包括Google 广告统计、数据仓库,以及用户支持系统的维护。在之前,Chris 曾经在学校IT 行业任职,同时参与过竞选数据分析,以及一些BSD 内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有执照的职业工程师。 ... Betsy Beyer 是Google 纽约负责SRE 的一名技术文档作家。她之前曾为遍布全球的Google 数据中心与Mountain View 硬件运维团队编写文档。在搬到纽约之前,Betsy 是Stanford 大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane 获得学历。 Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一个PaaS 服务,每天处理超过280 亿个请求。他的办公室在旧金山,他之前的工作包括Google 广告统计、数据仓库,以及用户支持系统的维护。在之前,Chris 曾经在学校IT 行业任职,同时参与过竞选数据分析,以及一些BSD 内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有执照的职业工程师。 Jennifer Petoff 是Google SRE 团队的一名项目经理,工作地点在都柏林,爱尔兰。她曾经负责管理大型全球项目,包括:科学研究、工程、人力资源,以及广告等。Jennifer在加入Google 之前,曾在化工行业任职八年。她获得了Stanford 大学的化学博士与学士学位,同时她还拥有Rochester 大学的心理学学位。 Niall Murphy 是Google 爱尔兰团队广告SRE 的负责人。他拥有20 年互联网行业经验,目前是INEX(爱尔兰网络互联枢纽)的主席。他曾经写作以及参与写作很多科技文章与书籍,包括O’Reilly 出版的IPv6 Network Administration,以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学,以及诗歌学的学历(他当时一定是想错了!)。他目前与妻子和两个儿子居住在都柏林。 译者 孙宇聪,前Google SRE(2007-2015),山景城总部,曾参与构建运维Youtube 全球CDN网络,2008年奥运会直播项目,构建维护海量视频编码传输系统。后参与Google内部云平台运维工作,负责运维全球百万级别服务器集群,以及Borg、Omega等大规模集群理系统。2015年加入Coding,任CTO一职。回国后,积极推动国内容器化运维架构升级。目前是开放运维联盟之应用运维规范制定组,高可用运维规范制定者。

目录:
第1 章 介绍 2
第2 章 Google 生产环境:SRE 视角 11
第3 章 拥抱风险 23
第4 章 服务质量目标 34
第5 章 减少琐事 44
第6 章 分布式系统的监控 49
第7 章 Google 的自动化系统的演进 60
第8 章 发布工程 76
第9 章 简单化 85
第10 章 基于时间序列数据进行有效报警 93
第11 章 on-call 轮值 109
第12 章 有效的故障排查手段 116
第13 章 紧急事件响应 131
第14 章 紧急事故管理 140
第15 章 事后总结:从失败中学习 146
第16 章 跟踪故障 152
第17 章 测试可靠性 157
第18 章 SRE 部门中的软件工程实践 176
第19 章 前端服务器的负载均衡 191
第20 章 数据中心内部的负载均衡系统 197
第21 章 应对过载 212
第22 章 处理连锁故障 223
第23 章 管理关键状态:利用分布式共识来提高可靠性 246
第24 章 分布式周期性任务系统 273
第25 章 数据处理流水线 284
第26 章 数据完整性:读写一致 295
第27 章 可靠地进行产品的大规模发布 322
第28 章 迅速培养SRE 加入on-call 341
第29 章 处理中断性任务 355
第30 章 通过嵌入SRE 的方式帮助团队从运维过载中恢复 363
第 31 章 SRE 与其他团队的沟通与协作 370
第32 章 SRE 参与模式的演进历程 383
第33 章 其他行业的实践经验 398
第34 章 结语 408

点击下载