......(更多)
......(更多)
序言I
序言II
前言
第1章 SRE与DevOps的关系
关于DevOps的背景情况
关于SRE的背景情况
比较与对照
因地制宜才能倍
小结
第I部分 基础篇
第2章 实施SLO
SRE为何需要SLO
入门
范例系统分析
选择合适的时间窗口
获取利益干系者的认同
SLO目标持续改进
基于SLO和错误预算的决策
进阶主题
小结
第3章 SLO工程案例研究
Evernote的SLO故事
Home Depot的SLO故事
小结
第4章 监控
监控策略必备特性
监控数据源
管理监控系统
度量指标的意图
测试告警逻辑
小结
第5章 基于SLO的告警
告警设定考量
重大事件告警方法
低流量服务和错误预算告警
极端的可用性目标
扩大告警范围
小结
第6章 消除琐事
什么是琐事?
试题琐事
琐事分类法
琐事管理策略
实例研究
案例研究1: 利用自动化减少数据中心的琐事
案例研究2: 退役文件服务器后端的主目录
小结
第7章 简单性
度量复杂性
简单性是端到端的,适合由SRE来负责
回归简单性
小结
第II部分 实践篇
第8章 on-call轮值
回顾第一本SRE书中的“on-call轮值”
Google内外的on-call部署模式案例
实战的实施细节
小结
第9章 事故响应
Google的事故管理
案例分析
把最佳实践付诸实施
小结
第10章 事后总结:从失败中学习
案例分析
糟糕的事后总结
优秀的事后总结
组织激励
工具和模版
小结
第11章 管理负载
Google云的负载均衡
自动缩放
管理负载的多种策略
小结
第12章 介绍非抽象大系统设计
什么是NALSD?
为什么“非抽象”?
AdWords示例
小结
第13章 数据处理流水线
流水线应用
流水线最佳实践
流水线需求分析和设计
流水线故障的预防和响应
案例研究:Spotify
小结
第14章 配置设计及最佳实践
什么是配置
配置原则
配置机制
小结
第15章 配置规范
配置带来的琐事
减少配置带来的琐事
配置系统的关键属性和陷阱
集成配置语言
集成现有应用程序:Kubernetes
集成定制应用程序(自开发软件)
有效地运行配置系统
何时评估配置
防止滥用配置
小结
第16章 金丝雀发布
发布工程原则
平衡发布速度和可靠性
什么是金丝雀发布?
发布工程和金丝雀发布
用前滚部署还是简单的金丝雀部署
实施金丝雀
选择和评估指标
依赖关系和隔离
非交互式系统中的金丝雀
监控数据需求
相关概念
小结
第III部分 流程
第17章 发现运维超负荷并从中恢复
从正常负荷到超负荷
案例研究1: 团队规模缩小一半后的工作超负荷
我们决定做什么
案例研究2: 组织和工作负荷发生变化后的感知超负荷
缓解超负荷的策略
小结
第18章 SRE参与模式
服务的生命周期
建立关系
维持有效的持续关系
在更大的环境里规模化推行SRE
终止关系
案例研究1: Ares
案例研究2: 数据分析流水线
小结
第19章 SRE:跨越壁垒
不言而喻的事实
实践SRE怎样与客户共舞
小结
第20章 SRE团队生命周期
没有SRE的SRE实践
引入SRE角色
第一个SRE团队
打造更多SRE团队
多团队动作的建议实践
小结
第21章 管理SRE的组织变革
SRE拥抱变革
变革管理概述
案例研究1: 扩展Waze——从见机行事到计划性变革
案例研究2: 在SRE中采用通用工具
小结
结论
附录A SLO示例文档
附录B 错误预算策略示例
附录C 事后总结分析结果
作者介绍
封面介绍
......(更多)
......(更多)