海兰信海底数据中心科普之可靠性篇
早在2011年,美国互联网服务提供商AOL公司就宣布推出ATC的小型无人值守数据中心,称之为“熄灯”数据中心(Lights Out Data Center)。根据波洛蒙研究所的报告,人为错误是导致数据中心故障的罪魁祸首之一。更加糟糕的是,机房的部署环境虽然适宜人类工作,却不是设备运行的理想环境,其他相应的配套设施,也需要大兴土木,投资甚巨。
人力运维就像是把双刃剑,“熄灯”数据中心意在解决这个矛盾。随着技术进步和运维流程的革新,尤其是在世纪疫情的大背景下,“熄灯”数据中心的理念再次被提及,无人运维的理念逐渐深入人心。更可靠的设备,更精准的监控,更智能的自动化运维工具,让这一些都变得可能。
海底数据中心(UDC),就是这样一种免运维或少运维的数据中心部署形态。那么,海底数据中心又是如何保障系统的可靠性呢?
云服务的可靠性已提升到极致
近期,阿里云公布了最新的云服务器ECS服务等级协议SLA,单实例的可用性从99.95%提升至99.975%,多可用区多实例可用性从99.99%提升至99.995%,均为全球最高水准。99.99%的可用性,意味着云服务器一年内故障时间不超过52分钟,多可用区多实例则不超过26分钟。
阿里云是怎么实现这么高的可用性的呢?
首先是计算虚拟化层面的热迁移技术,它保证云服务器在发生故障时可以在用户无感的情况下,迁移到新的云服务器;其次,人工智能模型驱动的自动化运维平台,可实现高效的预防性维护,快速故障隔离,最小化影响面。
存储服务,其中云盘三副本,对象存储纠删码,基于合理的冗余和快速恢复技术,实现了99.999999999%(12个9)的可靠性和99.995%的可用性。
软件定义网络SDN技术已经非常成熟,部署在高可靠的物理网络设备上的Overlay虚拟网络,为业务提供了极大的灵活性和可靠性,远程运维更加更加便捷。
当用户把业务部署在云上时,就意味着将复杂的物理世界的事情留给了公有云厂商,系统的可靠性得到了保证。
后摩尔定律时代,服务器更耐用
1965年戈登·摩尔提出摩尔定律,距今已经过去近60年,芯片制程技术越来越接近物理的极限。
Intel CPU产品演进,从18个月的周期,延长到Tick-tock两步走的两年,又延长到三步走的三年。成本和时间的投入,相比CPU升级换代带来的算力提升,慢慢变得无足轻重。
可以预见,在更长的生命周期里,服务器提供的算力不会轻易遇到技术上的瓶颈,服务器更新的周期将更长,稳定性也将有所提高。
惰性气体环境,故障率低80%
研究发现,引起电子元器件故障的原因中,氧化占30%,温湿度变化占30%,其余为人鼠灾害。
在海底数据舱内,充满了惰性气体,消除了氧化风险;在20米以上深度的海水包围下,配合可靠的液冷散热技术,数据舱不会“中暑”,舱内环境近乎恒温恒湿。
在这样的环境下,服务器的各个元器件都工作在相对理想的环境下,可靠性和稳定性得到大幅提升。
根据微软海底数据中心项目的测试数据,运行在海底数据中心内的服务器,故障率仅为陆地数据中心服务器的1/8。
最近国外IT大厂又出圈了,Oracle和谷歌在伦敦的数据中心,因为高温天气冷却系统出现故障,进而导致机房故障!运维的同学真是操碎心了,想来还是下海吧……