导致惨重代价的运维事故02

导致惨重代价的运维事故02

OVH数据中心失火
2021年3月10日,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房近日发生严重火灾,该区域总共有4个数据中心。
火灾持续6个小时才被扑灭,发生起火的SBG2数据中心被完全烧毁,共360万个网站下线。

Salesforce全球大宕机
2021年5月11日,Salesforce的服务宕机,持续5个小时。
事故原因,官方反馈为“工程师尝试通过脚本变更DNS配置,但脚本执行超时失败。但不幸的是,这个脚本一直在各节点扩散,最终导致全线崩溃”

访问量激增,导致各类一码通服务宕机
2021年12月20日,西安“一码通”崩溃。
2022年1月4日,西安“一码通”崩溃。
2022年1月10日,广州“粤康码”崩溃。
2022年3月11日,上海“随申码”崩溃。

Facebook严重宕机
2021年10月5日,Facebook旗下应用出现大面积故障,波及到Facebook、Messenger、Instagram和WhatsApp等几乎所有产品。
此次宕机长达7个小时,影响到全球数十个国家和地区的几十亿用户。
官方给出的事故原因为:“协调数据中心之间网络流量的主干路由器的配置变化导致了通信中断,由此对我们数据中心的通信方式产生了连带影响,使我们的服务陷入停顿”

小插曲:
Facebook股价盘中暴跌6%,市值减少数百亿美元,扎克伯格个人财富一日蒸发逾60亿美元。
宕机期间,大量用户涌向了Twitter、Telegram等其他应用,又进一步导致这些应用程序的服务器崩溃。

B站713事故
2022年7月13日,B站崩了5个小时。
根据B站的事故分析报告,是SLB故障导致
本次SLB故障,是OpenResty中,计算gcd的lua代码传入了0值,被lua判定为nan,陷入了死循环
这段lua代码已经稳定运行了一段事件,但一个新发布模式,却触发了这个bug

Twitter事故
2022年7月14日,Twitter崩了1个小时。

小插曲:
其实对于Twitter的崩溃,大家都已经习惯了,每年不崩溃几次,都感觉不正常。

阿里云香港机房重大事故
2022年12月18日,由于香港可用区C机房冷却系统失效,现场包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,整个处置过程超过15小时。
事故后,阿里云总裁、CTO都被更换。

唯品会机房宕机事故
2023年3月29日凌晨,唯品会南沙IDC冷冻系统故障,导致机房设备温度快速升高宕机,造成线上商城停止服务
宕机事件达到12小时,损失超亿元,影响客户达800万,唯品会将此次故障判定为P0级故障。
事故后,基础平台部门负责人被免职。

腾讯云机房事故
23年3月29日凌晨,腾讯云广州五区部分云服务异常,导致微信、QQ、支付等核心功能受到影响,故障在当天中午基本恢复。
事故原因,官方反馈为“本次事故由广州电信机房冷却系统故障导致”。

微软Azure故障
2023年5月24日,微软Azure DevOps在巴西的一处scale-unit发生故障,导致宕机约10.5个小时。
导致该中断的原因为一个简单的拼写错误,最终导致17个生产级数据库被删除。

语雀重大服务故障
2023年10月23日,语雀出现重大服务故障,持续7个多小时才完全恢复。
故障原因为新的运维升级工具bug,导致华东地区生产环境存储服务器被误下线,造成大面积服务中断。

阿里云全球故障
2023年11月12日,阿里云爆发全球故障,阿里产品全线崩溃,几乎影响全部云用户,持续事件达3.5小时。
故障原因,具说是鉴权服务出了问题。

小插曲:
两周后,在2023年11月27日,阿里云再次遭遇了近两小时的中断,影响到中国和美国的客户。
然后当天晚上,滴滴就来了个大的。

滴滴故障
2023年11月27日晚间,滴滴崩溃,APP功能无法使用,直至第二天才陆续恢复,故障事件超过12小时。
故障原因,官方反馈说是“底层系统软件发生故障”。

腾讯云崩溃事件
24年4月8日,由于API服务新版本向前兼容性考虑不够和配置数据灰度机制不足,导致1957个客户报障,故障持续90分钟

微软蓝屏事件
24年7月19日,使用了Windows操作系统的设备大面积蓝屏,导致850万设备受到影响。
故障原因是,微软安全供应商CrowdStrike推送了错误的软件配置。

阿里云新加坡机房火灾
24年9月10日上午,阿里云新加坡可用区C数据中心发生火灾,导致主要科技公司服务中断。
火灾原因已确定为锂电池爆炸,持续36小时以上。
此故障,影响到了TikTok、Lazada等多家用户。

============================================================
注:本文主要是整理了运维导致的惨痛代价,并没有记录下面几种情况(设计失败,黑客攻击,病毒爆发)

Leave a Reply

Your email address will not be published. Required fields are marked *

*