最新要闻
- 《塞尔达传说:王国之泪》卖爆背后是手游行业的悲哀-全球视讯
- 再见吧!特斯拉强制单踏板模式
- 全球今亮点!“感染”塞尔达病毒后 我每天只睡三小时
- 硬派越野车不适合城市?仰望U8云辇-P出手:三级可调、软硬随心
- ChatGPT估值已上2000亿 创始人对钱没兴趣:收入只够交保险 当前速看
- 23中国中药SCP001今日发布发行公告|当前聚焦
- 全球头条:1美金等于多少人民币元(2023年5月17日)
- 国内又现被驱赶的5G基站:你敢建?我就敢拆!居民称辐射大有害健康|全球热点评
- 开除软件部门全体高管后 大众被曝要用华为车机软件|全球微资讯
- 1TB硬盘只要200元 三星等带头减产闪存 国产存储公司回应:好消息 天天短讯
- 当前要闻:沈阳金融商贸开发区聘请十余位顾问委员会特邀专家
- 四大运营商宣布:我国启动全球首个5G异网漫游试商用
- 国产武侠游戏巅峰 等了16年的《仙剑4重制版》悬了
- OPPO Reno10系列正面颜王:对称双曲面、2.12mm窄下巴 世界快讯
- 前苹果工程师被指控盗窃自动驾驶技术 为中国汽车公司牟利
- ZV-1继承者来了!索尼新款Vlog相机5月23日发布
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
SRE Google 运维解密读书笔记一:SRE 方法论概述
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论。帮大家把书读薄,当然,也加入了一些我的个人理解,希望对你有帮助。
(资料图片仅供参考)
为何需要 SRE
传统的 sysadmin 的方式,偏手工运维,机器越多所需运维工程师越多,对于 Google 的体量(毛估估现在大概有几百万台机器)和增长速度,成本(人工成本、管理成本等)不可承受。
因为目标不同、技术背景不同、对可靠性理解不同,传统运维和产品研发团队之间,很容易形成巨大的鸿沟,有时会上升到部门之间的信任和尊重层面。比如拿变更举例,研发部门想要:“随时随地发布新功能,没有任何阻拦”,传统的运维团队想要的则是:“一旦一个东西在生产环境中正常工作了,就不要再做任何改动”。这样的两个团队,是没法很好的合作的,尤其是在 Google 的体量和增速下,得改。解法就是 SRE。
Google SRE 概述
Google SRE 的创始人是 Benjamin Treynor Sloss,研发出身,2003 年加入 Google,被任命领导一个 7 人小组(现在,SRE 团队已经上千人了),负责“生产环境维护”。Google 当时的增速是非常快的,如果按照传统的玩法,招人的速度完全无法匹配机器增速,怎么做这个“生产环境维护”的工作呢?
Benjamin Treynor 是资深研发,自然就会考虑用软件工程的手段来解决遇到的各类问题,所以 Google SRE 首先,得具备研发技能,用研发技能来解决各类生产维护重复工作。他们具备如下特质:
- 对重复性、手工性的操作有天然的排斥感
- 有足够的技术能力快速开发出软件系统以替代手工操作
但是,做过运维的人都知道,总有一些日常运维的工作无法避免,有时根本没时间写代码,比如处理工单、手工操作,尤其是在基础设施平台工程不完备的情况下。这可咋整?
Google 提出了 50% 的原则,即日常运维的时间不能超过 50%,即需要至少拿出一半以上的时间来做工程研发,釜底抽薪,用工程手段解决手工操作。那有的时候,日常运维工作繁重,超过了 50% 时间分配原则,怎么办?把相关工作交给产品研发团队的 leader,让他来帮忙消化掉一部分工作。研发 leader 一看,运维侧的工作好多啊,是不是我们的软件不够鲁棒、很多应该自动处理的逻辑没有自动处理,就会去改进,形成正向循环。当然,这个机制需要公司管理层强力推动。如果遇到一个研发团队说,运维的活你们运维干不完,干不完可以招人啊,管理层也不作为,就完了。
DevOps 还是 SRE
Benjamin Treynor 认为,SRE 是 DevOps 模型在 Google 的具体实践,带有一些特别的扩展。
SRE 技能组成
实际的人员组织来看, SRE 团队分两类人,一类就是纯研发,一类是具备八九成研发能力,同时还懂一些 UNIX 知识、网络知识。如果国内运维团队想要转型为 SRE 组织,就这个技能要求就很难达成(其实除了 Google,其他国外的公司也很难做到)。咋办?
国内的组织的做法:一个人能力有限,弄个团队来顶上,团队里既有只懂研发的人,又有只懂网络的人,又有只懂操作系统的人,应该就可以了吧。个人的看法是,这个做法基本是对的,但是不完全够。因为虽然是一个团队,但是不同的小组或个人的知识仍然是无法完全共享的,这使得在做工程决策、实践的时候,没法做到像 Google SRE 那样如臂指使。
稍微改进一下的做法是:团队里仍然要招聘一两个 SRE 专家,姑且称为 SRE COE,既懂开发又懂运维的那种,统筹所有工作,然后那些单方面的技能人才,辅助 SRE COE 来完成工作,相对会更靠谱一些。
SRE 方法论
SRE 团队的职责:可用性改进,廷迟优化,性能优化,效率优化,变更管理,监控,紧急事务处理以及容量规划与管理。要转型的团队注意了,用软件工程的手段达成以上目标,就说明你们团队转型成功了:)
在保障服务 SLO 的前提下最大化迭代速度
变更是万恶之源,生产环境中的故障,大概有 70% 都是变更引起的。屁股决定脑袋,运维团队就希望尽量别有变更,研发团队要上线新 feature,那就需要频繁变更,咋整?Google 提出了 “错误预算” 的理念。
产品首先得确定 SLO,比如某个服务的季度 SLO 目标是 99.99%,那不可用的 Quota 预算就是 0.01%,每个月按照 30 天来算,一个季度 90 天,允许的不可用分钟数是:
90 * 24 * 60 * 0.01% = 12.96 分钟 ≈ 13 分钟
只要服务的季度不可用时长低于 13 分钟,随便折腾,但是一旦超过了 13 分钟,说明 Quota 用光了,就不能随意上线了,非得要上线,行么?也行,VP 审核通过吧。那意思就是:你看这个研发团队,上线老是出问题,不可信赖,现在又要上线了,SRE 是不准备放行了,VP 大佬来决策吧,VP 大佬也非要允许上,那就上。
咋样,这个方法听着不错吧。贵司可以试试。这里要注意,服务要想减少故障时长,是需要有良好的基础设施保障的,比如研发上线发现问题,想回滚,结果部署系统不可靠,这找谁说理去。所以,错误预算这个方法可以用,但是不同的公司,SLO 的阈值得谨慎制定,没有金刚钻不揽瓷器活,基础设施很烂,SLO 就定低点吧。
SLO 谁来定?
SLO 应该是业务来定,但是SRE 要提供一些信息,告诉业务达成什么样的 SLO 要付出什么样的成本,业务有了这些信息了,再来确定制定什么样的 SLO。比如某个业务不盈利,就是个实验性质的业务,SLO 低一点很正常,具体要看业务本身的决策,所以 SLO 的制定需要业务拍板。
监控系统
核心要学习的是:每个需要通知到人的告警,必须对应 Runbook,即预案手册。如果一个告警发出来,没有人响应,没有相应的动作执行,这个告警就是无效的。Runbook 链接一般配置在告警规则里,比如 Grafana、Nightingale、Datadog 的告警规则配置,都支持这么干。告警规则的 Runbook 预置率是一个很好的告警治理指标。
有些告警可以不用立即处理,但是至少得创建个工单留待后续处理。
应急事件处理
提前准备好 Runbook,即预案手册,比即兴发挥,效果好 3 倍。
变更管理
要自动化!要自动化!要自动化!自动化完成以下项目:
- 采用渐进式发布机制
- 有良好的监控系统,可以快速发现问题
- 当问题发生时,可以安全回滚
需求预测和容量规划
要考虑的点包括:
- 自然增量:随着用户自然增长带来的增量
- 非自然增量:比如市场活动
- 周期性压测:这点很关键,这点很关键,这点很关键,通过压测才知道你的系统瓶颈在哪个微服务,才能把系统原始资源和业务容量对应起来
资源部署
扩容需要部署资源,变更也需要,这就是 Borg 的作用,其他公司可以采用类似 Kubernetes 的方案。不管使用什么方案,能够快速、正确的完成部署,最大化资源使用,就可以了。
效率与性能
SRE 也需要关注服务性能,提升了性能,其实就是提高了资源利用效率,同样的硬件可以支撑更大量的客户。NetFlix 有专门的 Performance 工程师,Google 的话 SRE 一并干了这个事情。
小结
SRE 团队的职责:可用性改进,廷迟优化,性能优化,效率优化,变更管理,监控,紧急事务处理以及容量规划与管理。我们要用软件工程的思维来解决这些问题,完活。留个问题:
SRE 要不要修改业务代码?
比如增加一些监控埋点,或者优化一个算法提升软件性能,或者换了一个更合理的存储?欢迎大家留言讨论 :)
关键词:
-
SRE Google 运维解密读书笔记一:SRE 方法论概述
SREGoogle运维解密,是SRE领域的启蒙之作,讲述了Google的SRE实践,SRE就是从Google流传出来的。本文是读书
来源: SRE Google 运维解密读书笔记一:SRE 方法论概述
Python从零到壹丨带你了解图像直方图理论知识和绘制实现
匠心精神--来看一个小迭代的代码实现
《塞尔达传说:王国之泪》卖爆背后是手游行业的悲哀-全球视讯
再见吧!特斯拉强制单踏板模式
全球今亮点!“感染”塞尔达病毒后 我每天只睡三小时
硬派越野车不适合城市?仰望U8云辇-P出手:三级可调、软硬随心
ChatGPT估值已上2000亿 创始人对钱没兴趣:收入只够交保险 当前速看
23中国中药SCP001今日发布发行公告|当前聚焦
全球头条:1美金等于多少人民币元(2023年5月17日)
国内又现被驱赶的5G基站:你敢建?我就敢拆!居民称辐射大有害健康|全球热点评
开除软件部门全体高管后 大众被曝要用华为车机软件|全球微资讯
1TB硬盘只要200元 三星等带头减产闪存 国产存储公司回应:好消息 天天短讯
全球观焦点:企业级项目模板的配置与集成(Vite + Vue3 + TypeScript)
智能家居生态迎来超强辅助 快资讯
当前要闻:沈阳金融商贸开发区聘请十余位顾问委员会特邀专家
四大运营商宣布:我国启动全球首个5G异网漫游试商用
国产武侠游戏巅峰 等了16年的《仙剑4重制版》悬了
OPPO Reno10系列正面颜王:对称双曲面、2.12mm窄下巴 世界快讯
前苹果工程师被指控盗窃自动驾驶技术 为中国汽车公司牟利
ZV-1继承者来了!索尼新款Vlog相机5月23日发布
我国成功发射第五十六颗北斗导航卫星 全球观点
数据结构-环球速递
【世界热闻】提高数据的安全性和可控性,数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路
环球看点!Django authenticate() 函数查找不到与提交的用户名和密码匹配的用户,则会返回 None。
apb uart IP使用说明
微软反驳马斯克:我们并没有控制OpenAI
频繁翻车、流量不再 为何明星代言手机越来越少了?
环球要闻:20年来重大转变 马斯克将花钱为特斯拉打广告
边开边充!瑞典率先打造世界首条永久性充电公路 头条
病人被医生遗忘在磁共振舱近三小时 属重大医疗事故 科普:没辐射
全球新动态:【道德经】五十·出生入死
NineData:高效高质量的 Redis 可视化管理工具|今热点
如何在不改变图片分辨率的情况下增加图片的大小
今日讯!国家发展改革委与标普评级公司召开座谈会 开展我国主权信用评级复评工作
最新70城房价出炉,4月份郑州新房同比增长0.2%
孟羽童图文广告报价至少15万一条 网友称其已赚近300万-世界聚看点
屏幕良心了 Redmi Book 14用上2.8K 120Hz:告别万年FHD 60Hz 当前观察
自主品牌崛起 国人依然爆买BBA等豪华车 30万以上增速翻倍-全球视讯
一特斯拉高速堵车任性变至应急车道:差点蹭翻执勤车辆
火爆!华为Mate X3出货目标翻倍:修改为超300万台-世界消息
保障口岸快捷通道恢复通关
热点聚焦:简单聊两句前端模块化
【天天聚看点】2023蝶变志愿免费版有没有 软件好用吗靠谱吗
消息称特斯拉申请扩建上海超级工厂:将首次生产软包电池 全球观速讯
马斯克“抢功”:没有我就没有OpenAI ChatGPT
档位天花板!荣耀90系列官宣:全新镜头惊艳
淘汰老头乐!两部门支持农村购买新能源汽车 提供以旧换新奖励|世界时快讯
天热必备:匹克夏季针织短裤34元官方冲量(65元优惠券)_今热点
世界快资讯:《守望先锋2》PVE英雄模式取消:开发没有取得预期进展
Vuex的使用 环球通讯
最低已跌至5.5% 上市券商两融利率集体下滑|世界新资讯
焦点速看:连通三大火车站,广州站至广州南站将建铁路联络线
莫言称余华根本不是我的对手:神评当代大学生脱不下孔乙己长衫 让人感慨
或卖17万!特斯拉公布全新车型 新一代平台打造:不用任何稀土
华为启动建设“双万兆之城”:5.5G峰值速率10Gbps 比5G快9倍-每日观点
北京发布人工智能算法领域专门人才政策
环球通讯!【读财报】创业板一季度业绩透视:近四成公司营收净利双增 机械设备、医药生物等行业表现突出
苹果联合创始人称想死就买特斯拉!马斯克回应:这比人类驾驶安全10倍
全球快报:仙侠剧《护心》惊现科技梗:"爱凤"变“花为” 剧情脑洞大开
2023特斯拉股东大会正式召开!一文了解重点内容
天天热讯:迪马尔科赛后话筒喊话:谁不跳谁就是米兰球迷 一起去伊斯坦布尔
关于Kubernetes-k8s集群在任意nodes节点上执行kubectl和kubadm命令的方法 全球报资讯
至少30元/杯!国人消费越来越冷静:都不喝星巴克了...
最高读取7100MB/s!京东京造鲲鹏SSD发布:2TB 579元
成都医保局缴费记录多久更新?-今日热搜
03-运算符
播报:不如华为轻薄!曝三星Galaxy Z Fold5 7月发
世界关注:无力自研 大众密谋动用数十亿欧元收购华为车BU:玩真的?
全球微头条丨好评如潮PC大作!黑客修复《生化危机4重制版》破解补丁:更加完美了
《英雄联盟》2023MSI:BLG3:1战胜G2 晋级四强|全球播资讯
淄博快递员称发不完根本发不完:我在淄博40年 没见过这么火热过-全球今亮点
吃粽子表示着什么 吃粽子预示着什么
全球简讯:谈谈AI产品经理的产品开发流程
勒沃库森官方:球队传奇贝拉拉比将在本赛季结束后离队_时快讯
Python学习之十三_pip的学习
中科院专家谈ChatGPT:被过度炒作和神化 不久就是白菜价-天天微速讯
电脑16GB内存到底够不够用?实测揭晓答案_环球快讯
全球速读:RTX4070游戏本杀疯!晚买果真享折扣 等等党赢了
浙江多地海边现“蓝眼泪”奇观:场面惊艳
某某吉他谱_某某吉他谱
关于k8s-master节点的token过期后的处理方法-让新node节点加入的方法-每日热点
每日聚焦:下半年的神U!联发科天玑9200+稳了:性能霸榜安卓阵营
rpcauthnlevelprivacy enabled_privacyiconclient exe 每日资讯
聊聊我认为的OpenFeign|微动态
IDEA配合Docker插件进行一键部署
文心一言 VS chatgpt (17)-- 算法导论4.1 3~4题 全球速读
洛谷颜色对照表 焦点短讯
版本升级!微软更新Windows 11 22H2正式版官方ISO镜像:免费下载
世界热头条丨更近了!中国新一代载人火箭进展顺利:一级可复用
焦点短讯!520用得着!杰士邦进口零感组合0.8元/只速囤:超薄澎湃
女网红用AI和1000个男友同时谈恋爱:轻松月入3000万
神似iPhone!realme narzo N53来了:后置双摄 主打轻薄-世界速看
超合金战记3boss大全(超合金战记3怎么抽斯巴达)
当前资讯!探索数字未来——虚拟数字化展厅的革新之旅
Java设计模式-装饰模式
法治服务“零距离”,让法治意识深入人心
你支持吗?广州研究压缩机动车道宽度 让电动自行车通行|每日焦点
能量密度断层式领先!宁德时代:凝聚态电池正用于电动载人飞机开发|全球独家
天天热资讯!《甄嬛传》胧月公主扮演者回应近照曝光:没买热搜