SRE 核心理论和方法论
SRE 核心理论和方法论
一、核心理论
可靠性优先
SRE 的使命是保证服务的可用性与稳定性。
功能迭代必须以可靠性为前提。
SLO / SLI / SLA 理论
SLI(Service Level Indicator)服务等级指标:延迟、可用性、错误率等。
SLO(Service Level Objective)服务等级目标:对 SLI 的目标值,如可用性 ≥ 99.9%。
SLA(Service Level Agreement)服务等级协议:对外承诺,通常涉及赔偿条款。
错误预算(Error Budget)
错误预算 = 1 - SLO
核心思想:用可靠性“预算”来平衡创新速度与稳定性。
工程化运维
运维即开发,强调编程化、自动化、平台化。
自动化降低人工错误、提升效率。
减少 Toil(重复性劳动)
Toil 是指高重复、低价值、难扩展的工作。
通过自动化、工具化、流程优化减少。
二、方法论
1. 服务等级管理
制定 SLO/SLI,作为衡量系统健康的核心依据。
通过 错误预算 控制发布节奏和风险。
2. 监控与可观测性
四黄金指标:延迟、流量、错误、饱和度。
可观测性三支柱:指标(Metrics)、日志(Logs)、链路追踪(Tracing)。
3. 变更与风险控制
发布策略:金丝雀发布、蓝绿部署、灰度发布。
变更必须可回滚,且伴随监控与报警。
4. 应急响应与事故管理
On-call 机制:快速响应、值班轮值。
事故处理:检测 → 响应 → 缓解 → 根因分析(Postmortem)。
无责后检讨(Blameless Postmortem):专注改进,而非追责。
5. 容错与高可用设计
容错机制:重试、熔断、超时、限流。
降级策略:核心功能优先,非关键功能可临时关闭。
6. 容量规划与性能优化
基于历史数据进行容量预测。
通过压测、演练(Chaos Engineering)验证系统弹性。
7. 文化与组织方法论
Dev 与 Ops 的深度融合,共担可靠性目标。
鼓励数据驱动和持续改进的文化。
三、总结
SRE 的核心在于:
以 可靠性 为首要目标;
借助 SLO/错误预算 平衡稳定与创新;
强调 自动化、可观测性、事故管理;
依赖 组织文化 推动持续改进。
