虚拟的网络世界都是以现实世界为基础的。当我们浏览网站、发送邮件、上传视频灌水论坛时,这些数据都将流经占地面积超过足球场的数据中心。数据中心内成千上万台服务器每秒钟消耗的能源都非常惊人。全世界所有的数据中心消耗的能源总和约占全世界用电量的2%,如果不加以控制,能源的消耗也将会如同互联网使用一样大爆发。所以,给数据中心能源消耗瘦身这一任务迫在眉睫。
好在近些年来出现了各种提升能源效率的方法,尽管数据中心的规模不断扩大,但其总电能消耗已经趋于平和。数据中心的能源消耗标准衡量单位PUE(电力使用效率)受很多因素影响。一个典型的数据中心需要配备多种设备,比如水机组、冷却塔、水泵、换热器和控制系统,每个设备都有各自的设置,并且它们相互影响、错综复杂。外加空气温度、风扇转速等因素,整个系统的复杂度成为天文数字。我们简单假设这个机房只有10套设备,每个设备有10组参数,那就有10^10组配置参数,即达到了百亿级别。但真实环境下的可能配置项远不止这些。
谷歌在规划数据中心的时候,都将数据中心的能源效率一并考虑。很久以前,谷歌就决定从头开始自行设计和建设数据中心,以便于应用最先进的冷却技术和运行策略。谷歌的数据中心尽可能采用先进的蒸发式冷却和外部空气冷却来替代传统的机械式冷水机。他们安装了智能温控和光控系统,并重新设计电力布线。他们的定制化高性能服务器砍去了视频卡等不必要组件,提高服务器的使用率,诸多的举措都为了减少能源损失。
截至2014年春,谷歌数据中心的能耗只有业界平均水平的50%。那么,接下去的问题就是如何进一步瘦身。一位名叫Jim Gao的谷歌工程师,受到网上机器学习课程的启发,决心找出问题的答案。
机器学习的核心在于教会计算机如何从大量数据中自学知识,而不需要工程师开发代码去告诉计算机这些知识。谷歌早已用机器学习来改善谷歌翻译、图像识别等产品。
Gao希望用“探索数据内部奥秘”的方法来帮助他更好地理解数据中心的海量信息。在日以继夜地忙碌了6个月之后,他终于为数据中心内的所有组件搭建了一套概念证明模型。他说“这只是个非常基础的原型,用以证明我的想法是可行的,值得去继续探索”。
最初的结果并不十分理想“第一次预测完全失败”,Gao自己承认“model在预测PUE和我们的行为序列时表现的不好”。模型认为使得节能最大化的办法是关闭整套系统,然而这个建议对工程师们并没有什么用。于是,Gao重新仿真运行,不断调整模型使得其预测结果最接近有效的配置,这也意味着达到了节能最大化的目标。当他觉得自己的模型已经足够准确之后,Gao发表了一份白皮书,然后与驻场运维团队一起实现此系统。
与此同时,谷歌的人工智能研究团队DeepMind发表的一篇关于DQN的论文引起了不小的轰动,这是一个会玩Atari游戏的机器人,所有Atari游戏。训练会玩一种游戏的模型是一回事,让程序自学掌握所有的游戏的难度则有天壤之别。这是机器学习社区的一个重磅消息,当Gao听闻此消息之后,他立即给DeepMind的领导Mustafa Suleyman写了封邮件,主题为“机器学习+数据中心=搞一个大新闻?”
Suleyman支持Gao的想法,DeepMind开始于Gao的数据中心智能化(DCIQ)团队合作研发更稳健和通用的模型。
18个月之后,他们合作研发的模型已经用在了多个系统中,并且使得冷却系统减少了40%的能耗,总体能耗下降15%。DCIQ团队认为这只是一些微不足道的成绩,机器学习还能在这个领域发挥出更大的作用。谷歌的环保团队希望模型能降低系统的碳排放量,硬件运维希望降低设备的故障率,平台团队更关心服务器的能源消耗。机器学习能帮助大家实现各自的愿望。
Gao说道“我们坚信我们正在做的工作可以造福所有人”。即将发布的第二本白皮书将会介绍更多关于DCIQ的细节,也许对很多其他企业也会有帮助,比如发电厂、工厂等等。