SRE:Site Reliability Engineering

摘要

  • SRE Workflow
  • Code define Config
  • 拜占庭将军问题

Workflow

Discuss

Application

Code define Config

  1. SRE Team of Stack Overflow: DNSControl

  2. 分类:网络协议

Monitor

  1. beyond website monitoring the value of access logs

Chris Jones:分布式共识系统

Minghua Ye:App Engine

Minghua Ye
scalable system

automated service discovery

google protocol buffer

消息协议,向后兼容

core lib c++

  1. command-line flags

  2. Logging

  3. Googletest
    diff log diff file
    pages:
    blogs:

分布式共识系统

CAP:无人值守的一致的高可用系统是不存在的
CA系统:分区难题 脑裂 如何判断主从
CP系统+A:接受分区,在分区的情况下保持一致,牺牲一定损失

Zookeeper

  • 拜占庭将军问题
    稳定状态需要 3N+1(拜占庭式失败)或2N+1(非拜占庭式失败)个实例。即多进程达到一致

  • 单点故障源
    复制状态机(RSM),很久不动的冷备没有意义,风险更高。
    应用:分布式cron系统
    无状态微服务系统,先要有一个保障一致性(存储状态)的可靠服务。

扩展阅读:DevOps 漫谈系列

DevOps 实践的本质是文化

  • 学习力-团队生命之根
  • 带领团队翻译书籍
  • Don’t make me think
  • 凡是被很多人不断重复的好习惯,要将其自动化整合到工具

参考文献

推荐文章