/ 中存储网

谷歌的云计算 面临哪些挑战?

2017-01-03 10:47:52 来源:中存储

谷歌平台的副总裁Bart Sano,在企业需求背景下,谈到了关于谷歌硬件选择、迁移所面临的挑战以及下一波云计算。

随着大量的数据迁移到各个云提供商平台,云提供商都竞相扩大其基础设施选择,谷歌也不例外,看起来这些新的技术,作为一种成为市场上主要参与者的手段。

谷歌平台的副总裁Bart Sano,带领着一个团队,甚至算是一个公司。他们设计warehouse-scale数据中心,并且,公司内部一切以其大规模运营能力而文闻名世界。

Sano谈到关于SearchCloudComputing的谷歌硬件和基础设施—从他们如何适应企业的需求到下一波云计算,以及迁移客户的多样化工作负载所面临的挑战。

谷歌和英特尔最近宣布了合作开发企业云应用。其中一部分包括谷歌2017年云平台的下一代英特尔芯片。这一伙伴关系的动力是什么呢?

Bart Sano:我们通常不做这种类型的声明,但我们认为这是非常重要的,因为,用户可以了解到该项技术明年初就会上市。不仅能给最终客户带来有用的好处,很明显,谷歌本身对我们的搜索、广告、以及系统来说,都是很有用的。对于云来说,也是很有用的,因为其提供了更高的性能以及更多的配置,通过更大的内存占用以及多个线程等,能够帮助解决不同的工作负载问题,同时,建设架构能够帮助解决更多的计算和向量处理问题。

谷歌构建其基础设施来满足自己的特殊要求。你需要改变底层硬件,来满足云客户一系列不同的需求吗?

Sano: 谷歌有五到八个不同的产品领域,而这些产品领域都有自己的形式和功能。谈到云,我们在客户方面有更大的多样性。很多客户仍然在内部倾斜的类型内适用,本质上,因为他们是通用的,但是,也有客户希望实现最大的内存配置,或者最快的浮点比率。不仅在计算方面,而且在数值计算方面—GPU变得越来越多样化,最终,采用我们的机器学习TPU(张量处理单元)。

TPU和GPU之间,甚至现场可编程门阵列(FPGA),似乎有一个大热潮,主要的云提供商想要将这些技术,在他们的平台上实现合并。这背后蕴藏着什么?

Sano: 我们试图支持下一波云,机器学习和数据处理,利用机器学习和分析大数据。你需要更多的数值计算,求出大数据处理。

例如,不是每个人都需要一个GPU来做一个小的机器学习模型,一个特定的任务—也许CPU功能就足够了。这就是我们平时一直做的,直到我们的问题变得太大,我们不得不采用gpu。然后,这个问题成为太大的问题,我们必须做自己的定制硬件。然后,你需要决定[成为]做一些定制asic(专用集成电路)和FPGA吗?有不同的架构方法:你想要可编程的吗?你想要固定功能但更有效率的吗?每种架构方法都有自己的不足和优势。

所有这些不同的缩略词的原因是(因为),我们看到计算从一般用途转变成机器学习和分析空间,并且,我们看到云提供商试图引进分析功能—一般用途以前不需要的功能。

能解释一下,这个过程在谷歌是如何展现的吗?

Sano: 我从FPGA开始讲起。你通常采用FPGA,因为FPGA是可编程的,你不能预测未来,所以,就要有灵活性。快速部署这个FPGA,然后将其个性化。很难预测未来,但这是非常昂贵的、非常耗电,因为它们是通用的。

另一个方向是,如果你能足够快地开发定制ASIC,快速部署,这样的话,FPGA的优势有所减轻。这是我们的立场。我们能够及时开发ASIC,我们一直努力构建基础设施,在某种意义上,你可以进行再造,重新补充人员,重新个性化。

谷歌是一个容器的早期采用者。关于容器技术如何开始流行起来,你的观点如何?

Sano: 我到这里后不久,我们做了一个决定:我们应该采用VM还是容器?纠结了很久,我们最终决定采用容器,因为容器的开销低,尽管容器在管理方面等,可能会复杂一些,但是,容易是一个更有效的解决方案。事实证明了这是一个正确的决定。虚拟机是很灵活的,但是,因为虚拟机的灵活性,你需要支付更高的溢价。对我们来说,效率是非常大的、重要的方面。因为我们的规模,1%或2%的内存效率或处理器迁移时间和开销—很重要。

促进客户规模迁移,谷歌面临的挑战是什么?

Sano:移动数据并不简单,这是一个巨大的挑战。坦率地说,软件是最大的挑战,获取所有的软件,这样,就可以迁移数据集等等。我可以很容易地看到,什么时候可能会变成一个异构平台环境。

从本地环境迁移到云,不仅受到软件,而且也受到硬件的约束。受制于硬件,这也是我们与他们合作的事情……我们试图尽可能灵活适应他们,但是,这是这个行业的转型,我们得通过。

过渡到云,面临的其它挑战是什么?

Sano: 运行在旧系统之上的传统企业等,必须开发一个迁移策略。对我来说,是最大的问题,我们要做的就是构建更多的网桥,与混合环境匹配。