沉入海底2年的微软数据中心浮出水面:故障率只有陆地上的1/8

  • 时间: 2020-09-19 09:15:39

  2018 年微软把一个数据中心沉入苏格兰北部冰冷的海底,经过两年试运行,微软把它取回了。这个数据中心有 864 台服务器、27.6 PB 存储,可靠性比普通数据中心高 8 倍。

  点击查看视频

  这次取回启动了一个长达数年的项目的最后阶段,证明了水下数据中心这个概念不仅在运作、环境和经济等方面具有实用性,也是切实可行的。

  微软的 Project Natick 团队于 2018 年春季在海底 117 英尺深处部署了代号为“北方群岛”(Northern Isles)的数据中心。在随后两年,团队成员测试并监测了数据中心服务器的性能和可靠性。

  该团队假设海底的密封容器有办法来提高数据中心的整体可靠性。在陆地上,氧气和湿气的腐蚀、温度波动以及人员在更换损坏部件时的磕磕碰碰都是是导致设备出现故障的可变因素。

  部署的“北方群岛”数据中心证实了他们之前的假设,这可能对陆地上的数据中心会有启示。

  微软特别项目研究小组领导 Project Natick 的项目经理 Ben Cutler 表示,从 Project Natick 汲取的经验也在为微软在能源、废物和供水等方面的数据中心可持续性战略提供宝贵信息。

  他补充道,此外,水下数据中心的可靠性已得到证实,促使与 Azure 团队进行了讨论,该团队希望为需要在全球各地部署和运行战术性关键数据中心的客户提供服务。

  Azure 任务系统副总裁 William Chappell 说:“我们正在全球各地部署大大小小的边缘设备。我们的梦想是,学习如何使数据中心足够可靠、从而不需要人去接触。”

  概念证明

  2014 年微软在公司内部的 ThinkWeek 上首次提出了水下数据中心概念,这项活动聚集了众多员工,相互交流别出新裁的想法。当时认为这个概念有望为沿海人口提供高速云服务,并节省能源。

  全世界一半以上的人口居住在海岸 120 英里内。通过将数据中心放置在沿海城市附近的水下,可以实现数据短距离传输,从而实现快速流畅的上网冲浪、视频流和玩游戏等体验。

  一向凉爽的海洋还为节能的数据中心设计提供了便利。比如说,他们可以充分利用热交换管道,比如潜艇上的那种热交换管道。

  2015 年,微软的 Project Natick 团队在太平洋开展为期 105 天的部署过程中证明了水下数据中心概念是切实可行的。该项目的第二阶段包括与运作、造船和可再生能源等领域的海洋专家签约,以证明这个概念还具有实用性。

  Cutler 说:“我们现正在试图利用我们所取得的成果,而不是觉得需要进一步的证明。我们已完成了要做的工作。如果合适,Natick 是可供公司使用的一个关键构建模块。”

  微软的 Project Natick 团队使用龙门起重机从苏格兰奥克尼群岛附近的海底吊起了“北方群岛”数据中心。部署两年后,数据中心外面长出了一层海藻、藤壶和海葵。

  “北方群岛”数据中心是从苏格兰奥克尼群岛附近的海底取回的,部分淹没在龙门起重机的浮桥之间,被拖到了奥克尼斯特罗姆内斯的一个码头。

  “北方群岛”数据中心连接到充满压载物的三角形底座上,2018 年部署在苏格兰奥克尼群岛附近海底深 117 英尺处。

  部署时,“北方群岛”发出白光。微软 Project Natick 团队成员表示,部署处海洋流速很快,限制了海洋生物的生长。

  海洋工程公司 Naval Group 的 Stephane Gouret 在打量“北方群岛”水下数据中心充满压载物的底座的隐蔽角落里长出来的海葵。

  Project Natick 团队的成员强力清洗“北方群岛”水下数据中心。

  Project Natick 团队的成员强力清洗“北方群岛”水下数据中心。

  从苏格兰奥克尼群岛附近的海底取回并清洗后,一只海鸟停在“北方群岛”数据中心的顶部。

  微软 Project Natick 团队的成员使用铲斗从“北方群岛”水下数据中心收集空气样本,该数据中心充满了干燥的氮气,密封后部署到苏格兰奥克尼群岛附近的海底。另一名团队将数据中心与充满压载物的底座分开来,准备运到陆地。

  Project Natick 团队的成员在 Global Energy Group 位于苏格兰北部的 Nigg Energy Park 基地移除“北方群岛”水下数据中心的管端盖板。

  管端盖板移除后,Project Natick 团队的成员检查水下数据中心的内部。部署在海底时,电缆将水下数据中心连接到奥克尼岛电网,该电网完全由可再生能源技术提供能源。

  微软特殊项目研究小组的主要技术员 Spencer Fowers 从水下数据中心移除一台服务器。Project Natick 的研究人员将对该服务器进行分析,帮助查明水下数据中心中服务器的可靠性为何比陆地同样数据中心中的服务器高 8 倍。

  Project Natick 团队的成员从水下数据中心移除 12 个服务器机架和相关的冷却系统基础架构。

  微软研究部门的高级研发工程师 Mike Shepperd 站在覆以藤壶的水下数据中心前。

  海藻、藤壶和海葵

  “北方群岛”水下数据中心由 Naval Group 及其子公司 Naval Energies 制造,这是海军防御和海洋可再生能源领域的专家。总部位于奥克尼岛的 Green Marine 则为 Naval Group 和微软提供数据中心部署、维护、监测和取回等方面的支持,微软的特殊项目团队运行该数据中心已有两年。

  “北方群岛”部署在欧洲海洋能源中心,这是潮汐涡轮机和波能转换器的测试地点。这里的潮汐流最高强度每小时以 9 英里的速度流动,海面波涛汹涌,暴风雨天气下波浪更是超过 60 英尺。

  “北方群岛”水下数据中心的部署和取回需要海面平静时操作。整个过程花了整整一天。

  微软公司特殊项目研究小组的首席技术员 Spencer Fowers 说:“实际上,它的干净程度给我们留下了深刻的印象。上面没有长太多牢固的海洋生物,主要是海渣。”

  Project Natick 团队的一名成员强力清洗从海底取回的水下数据中心。

  强力清洗和收集数据

  一旦从海底捞起来在运往奥克尼群岛之前,Green Marine 团队强劲清洗防水钢管,防水钢管里面是“北方群岛”的 864 台服务器和相关的冷却系统基础架构。

  研究人员随后通过容器顶部的阀门插入试管收集空气样本,以便在华盛顿州雷德蒙德的微软总部进行分析。

  Fowers 说:“我们让它充满干燥的氮气,以便那里的环境相当不错。”

  他补充道,问题是通常从电缆及其他设备释放的气体会如何改变计算机的操作环境。

  经过清洗和空气采样的数据中心被装到卡车上,运到 Global Energy Group 位于苏格兰北部的 Nigg Energy Park 基地。Fowers 及其团队检查健康状况,并收集发送到雷德蒙德进行分析的部件,Naval Group 则打开管端盖板,取出服务器机架。

  打包发到雷德蒙德的部件包括几台出故障的服务器及相关电缆。研究人员认为,该硬件将帮助他们理解为什么水下数据中心中服务器的可靠性比陆地上的服务器高 8 倍。

  Fowers 说:“这看起来确实不赖。我们要弄清楚到底是什么给我们带来这种好处。”

  该团队假设,氮气的腐蚀性不如氧气以及没有人员对部件磕磕碰碰是造成这种差异的主要原因。如果分析证明这的确属实,团队可以将分析结果借鉴到陆地数据中心。

  Cutler 说:“水下故障率只有地上故障率的八分之一。”

  他补充道:“我的经济模型表明,即使我在每个时间单位丢失了这么多服务器,至少与地上数据中心不相上下。我们的实际情况比这好得多。”

  Project Natick 团队的成员强力清洗从海底取回的水下数据中心。

  能源、废物和水

  研究人员表示,从 Project Natick 汲取的其他经验教训已经在促进人们谈论如何使数据中心更可持续地使用能源。

  比如说,Project Natick 团队选择奥克尼群岛来部署“北方群岛”,一方面是由于那里的电网完全由风能和太阳能以及欧洲海洋能源中心正在开发的实验性绿色能源技术提供能源。

  Fowers 说:“我们在大多数陆地数据中心认为不可靠的电网上运行得很好。但愿在分析研究成果后,我们可以说我们不需要那么多面向电源和可靠性的基础架构。”

  Cutler 已经在考虑一些场景,比如水下数据中心与海上风电场放在同一处。即便是微风,数据中心可能也有足够的电力。最后一招是,可以将岸上的电力线与传输数据所需的光缆捆绑在一起。

  与可持续性有关的其他好处可能包括不需要使用备用零件。在无人值守的数据中心,所有服务器大概每五年更换一次。服务器的高可靠性意味着只需撤下早早失效的少数服务器。

  Cutler 特别指出,此外,Project Natick 表明,无需利用对人、农业和野生生物至关重要的淡水资源,就可以运行数据中心,并保持凉爽。

  他说:“现在,微软正在寻找将这一套搬到陆地数据中心上的方法。”

  去任何地方

  关于 Project Natick 未来的早期讨论侧重于如何扩大水下数据中心的规模,以支持一整套微软 Azure 云服务,这可能需要将十几只或更多只“北方群岛”大小的容器连接起来。

  Fowers 说:“随着我们从通用云计算向云计算和边缘计算转变,我们发现越来越需要将较小的数据中心部署在离客户更近的地方,而不是在偏僻的地方部署这些大型仓库数据中心。”

  这就是 Chappell 在 Azure 的小组一直关注 Project Natick 进展的原因之一,包括对可以保护敏感和关键部门数据安全的后量子加密技术进行测试。保护数据的能力是 Azure 在多个行业履行其使命的核心。

  Chappell 说:“事实上,他们很快就能够部署水下数据中心,一直以来运行稳定,并且对发送给它的信号拥有加密级别,这有力地证明了未来前景。”