好书推荐 好书速递 排行榜 读书文摘

Google SRE工作手册

Google SRE工作手册
作者:
出版社:中国电力出版社
出版年:2020-09
ISBN:9787519845858
行业:其它
浏览数:252

内容简介

......(更多)

作者简介

......(更多)

目录

序言I

序言II

前言

第1章 SRE与DevOps的关系

关于DevOps的背景情况

关于SRE的背景情况

比较与对照

因地制宜才能倍

小结

第I部分 基础篇

第2章 实施SLO

SRE为何需要SLO

入门

范例系统分析

选择合适的时间窗口

获取利益干系者的认同

SLO目标持续改进

基于SLO和错误预算的决策

进阶主题

小结

第3章 SLO工程案例研究

Evernote的SLO故事

Home Depot的SLO故事

小结

第4章 监控

监控策略必备特性

监控数据源

管理监控系统

度量指标的意图

测试告警逻辑

小结

第5章 基于SLO的告警

告警设定考量

重大事件告警方法

低流量服务和错误预算告警

极端的可用性目标

扩大告警范围

小结

第6章 消除琐事

什么是琐事?

试题琐事

琐事分类法

琐事管理策略

实例研究

案例研究1: 利用自动化减少数据中心的琐事

案例研究2: 退役文件服务器后端的主目录

小结

第7章 简单性

度量复杂性

简单性是端到端的,适合由SRE来负责

回归简单性

小结

第II部分 实践篇

第8章 on-call轮值

回顾第一本SRE书中的“on-call轮值”

Google内外的on-call部署模式案例

实战的实施细节

小结

第9章 事故响应

Google的事故管理

案例分析

把最佳实践付诸实施

小结

第10章 事后总结:从失败中学习

案例分析

糟糕的事后总结

优秀的事后总结

组织激励

工具和模版

小结

第11章 管理负载

Google云的负载均衡

自动缩放

管理负载的多种策略

小结

第12章 介绍非抽象大系统设计

什么是NALSD?

为什么“非抽象”?

AdWords示例

小结

第13章 数据处理流水线

流水线应用

流水线最佳实践

流水线需求分析和设计

流水线故障的预防和响应

案例研究:Spotify

小结

第14章 配置设计及最佳实践

什么是配置

配置原则

配置机制

小结

第15章 配置规范

配置带来的琐事

减少配置带来的琐事

配置系统的关键属性和陷阱

集成配置语言

集成现有应用程序:Kubernetes

集成定制应用程序(自开发软件)

有效地运行配置系统

何时评估配置

防止滥用配置

小结

第16章 金丝雀发布

发布工程原则

平衡发布速度和可靠性

什么是金丝雀发布?

发布工程和金丝雀发布

用前滚部署还是简单的金丝雀部署

实施金丝雀

选择和评估指标

依赖关系和隔离

非交互式系统中的金丝雀

监控数据需求

相关概念

小结

第III部分 流程

第17章 发现运维超负荷并从中恢复

从正常负荷到超负荷

案例研究1: 团队规模缩小一半后的工作超负荷

我们决定做什么

案例研究2: 组织和工作负荷发生变化后的感知超负荷

缓解超负荷的策略

小结

第18章 SRE参与模式

服务的生命周期

建立关系

维持有效的持续关系

在更大的环境里规模化推行SRE

终止关系

案例研究1: Ares

案例研究2: 数据分析流水线

小结

第19章 SRE:跨越壁垒

不言而喻的事实

实践SRE怎样与客户共舞

小结

第20章 SRE团队生命周期

没有SRE的SRE实践

引入SRE角色

第一个SRE团队

打造更多SRE团队

多团队动作的建议实践

小结

第21章 管理SRE的组织变革

SRE拥抱变革

变革管理概述

案例研究1: 扩展Waze——从见机行事到计划性变革

案例研究2: 在SRE中采用通用工具

小结

结论

附录A SLO示例文档

附录B 错误预算策略示例

附录C 事后总结分析结果

作者介绍

封面介绍

......(更多)

读书文摘

......(更多)

猜你喜欢

点击查看