SRE 核心理论和方法论

大约 2 分钟

SRE 核心理论和方法论

一、核心理论

可靠性优先
- SRE 的使命是保证服务的可用性与稳定性。
- 功能迭代必须以可靠性为前提。
SLO / SLI / SLA 理论
- SLI（Service Level Indicator）服务等级指标：延迟、可用性、错误率等。
- SLO（Service Level Objective）服务等级目标：对 SLI 的目标值，如可用性 ≥ 99.9%。
- SLA（Service Level Agreement）服务等级协议：对外承诺，通常涉及赔偿条款。
错误预算（Error Budget）
- 错误预算 = 1 - SLO
- 核心思想：用可靠性“预算”来平衡创新速度与稳定性。
工程化运维
- 运维即开发，强调编程化、自动化、平台化。
- 自动化降低人工错误、提升效率。
减少 Toil（重复性劳动）
- Toil 是指高重复、低价值、难扩展的工作。
- 通过自动化、工具化、流程优化减少。

二、方法论

1. 服务等级管理

制定 SLO/SLI，作为衡量系统健康的核心依据。
通过 错误预算 控制发布节奏和风险。

2. 监控与可观测性

四黄金指标：延迟、流量、错误、饱和度。
可观测性三支柱：指标（Metrics）、日志（Logs）、链路追踪（Tracing）。

3. 变更与风险控制

发布策略：金丝雀发布、蓝绿部署、灰度发布。
变更必须可回滚，且伴随监控与报警。

4. 应急响应与事故管理

On-call 机制：快速响应、值班轮值。
事故处理：检测 → 响应 → 缓解 → 根因分析（Postmortem）。
无责后检讨（Blameless Postmortem）：专注改进，而非追责。

5. 容错与高可用设计

容错机制：重试、熔断、超时、限流。
降级策略：核心功能优先，非关键功能可临时关闭。

6. 容量规划与性能优化

基于历史数据进行容量预测。
通过压测、演练（Chaos Engineering）验证系统弹性。

7. 文化与组织方法论

Dev 与 Ops 的深度融合，共担可靠性目标。
鼓励数据驱动和持续改进的文化。

三、总结

SRE 的核心在于：

以 可靠性 为首要目标；
借助 SLO/错误预算 平衡稳定与创新；
强调 自动化、可观测性、事故管理；
依赖 组织文化 推动持续改进。