AWS S3故障回顾和总结

S3故障回顾

2月28日,AWS工程师在排查Northern Virginia (US-EAST-1) Region的一个S3计费问题时,因敲错了一条playbook的参数而误删了大量的s3控制服务引发了4小时的故障。这个误操作影响了两个S3的核心系统:

由于S3的故障,一大批依赖于S3的AWS服务也发生故障(如EC2、EBS和Lambda等),进而也影响了近半的北美互联网服务。不过,这次故障只是影响了用户的访问,并没有丢失数据(可靠性还是保障的,S3有7个9的可靠性和4个9的可用性)。

虽然aws s3具有优秀的故障设计,在故障发生时一般会自动恢复。但是,由于s3极好的稳定性,Index和Placement系统已经多年未重启过了,这次重启重建index的时间超过预期,并且placement依赖于index系统,导致系统恢复花费了较长的时间。

改进措施

教训

一个高可用系统的参考架构,图片来自The Learning AWS Blog

参考链接

Comments

comments powered by Disqus