浪潮FPGA方案加速深度学习，能效比提升7倍-中国存储网

2017-09-26 22:48:13 来源：中存储网

2016年，机器在ImageNet中图像识别错误率达到了3.5%，远远超出了人类平均的5.1%。在越来越多的领域，AI已经拥有了超越人类的能力，比如象棋、围棋，比如图片、语音识别。AI计算平台和相关算法的发展是人工智能大跃进的基础，在线下模型训练中Xeon-Phi、GPU等发挥着巨大的作用，而在线上的推理任务中，浪潮FPGA深度学习加速解决方案则能够实现7倍以上的能效比提升。

机器的图像识别错误率已远低于人类

训练时间不是问题，运行时间才是关键

卷积网络之父、Facebook人工智能实验室主任Yann LeCun在一次采访中表示，“大规模的在卷积神经网络训练上可能是比较慢，但是在一个实际的应用中，没人关心训练到底要花多长时间，人们只关心运行需要多久。”

也就是说，当模型一旦被训练完成，线上推理的效率才决定用户体验。比如，有2个同样AI模型的训练，一家公司用了1天训练完成，但线上推理的效率只有每秒100个任务；另一家公司用了7天训练完成，但线上推理效率可以达到每秒1000个。那么对于最终用户而言，第二家公司的应用无疑更快、用户体验更佳。那么如何才能提升人工智能应用的线上推理任务的效率？

CPU、GPU都无法满足海量推理任务实时处理

目前，GPU已经在深度学习训练模型领域开创性地创建了包含CNN、DNN、RNN、LSTM以及强化学习网络等算法在内的应用加速平台和完整的生态系统。

GPU虽火，但技术上也有一定的局限性：

GPU在应用过程中无法充分发挥并行计算优势。

深度学习包含两个计算环节，即线下训练和线上推理环节。GPU在深度学习算法模型训练上非常高效，但在推理时,一次性只能对于一个输入项进行处理，并行计算的优势不能发挥出来。

运行能效比不佳。

相比较而言，运行深度学习算法实现同样的性能，GPU所需功耗远大于FPGA，通常情况下，GPU只能达到FPGA能效比的一半或更低。

硬件结构固定不具备可编程性。

目前来看，深度学习算法还未完全成熟，算法还在迭代衍化过程中，若深度学习算法发生大的变化，GPU无法像FPGA一样可以灵活的配置硬件结构，快速切入市场。

因此，FPGA和GPU未来在超级数据中心将成主流应用。尤其是在深度学习方面， GPU强在训练，而FPGA强在推断。原百度IDL常务副院长、现地平线机器人创始人&CEO余凯博士在北大一次公开课中透露：“百度广告系统上线跟语音系统上线都需要实时计算，并且它的流量特别大，特别是广告，这种情况下 CPU 跟 GPU 其实都扛不住，所以我们当时用 FPGA 去做专门的硬件加速。”

浪潮FPGA方案加速，能效比提升7倍以上

由于FPGA具有可编程专用性，高性能及低功耗的特点，浪潮推出基于FPGA的深度学习加速解决方案，希望通过更高配置的硬件板卡设计和内置更高效已编译算法，来加速FPGA在人工智能领域的应用。

这一方案基于浪潮研发的业界最高密度的FPGA卡——F10A，单芯片峰值运算能力为1.5TFlops，而功耗仅35W，每瓦特性42GFlops。同时，F10A设计半高半长PCI-E插卡，具有灵活的板卡内存配置，最大支持32G双通道内存，能够寄存更多的并行任务数据。此外，F10A支持2个10Gb光口，可以实现数据直接从网络到板卡处理，无需经过CPU，减低了传输延时。

基于业界最强性能的浪潮F10A FPGA的图像压缩加速方案

而在算法上，浪潮FPGA深度学习加速解决方案针对CNN卷积神经网络的相关算法进行优化和固化。客户在采用此解决方案后，只需要将目前深度学习的算法和模型编译成与浪潮深度学习加速解决方案的配置脚本，即可进行线上应用，省去至少3个月到半年的开发周期和相关成本。并且在算法运行效率上，浪潮FPGA加速方案相比CPU、GPU都有着很大优势。

目前，浪潮FPGA方案可加速ResNet等神经网络，能够应用于图片分类、对象检测和人脸识别等应用场景。以通过构建ResNet残差网络的图片识别分类任务为例，对通用图像识别基础数据集CIFAR-10进行测试，通过浪潮FPGA解决方案进行处理，能够实现每秒742张的处理速度，Top-5识别准确率达到99.7%。而在同样的模型下，使用NVidia M4仅能达到172张每秒，并且M4的功耗为50-75W，浪潮FPGA的功耗仅为30-45W。因此，从能效比来看，浪潮FPGA加速解决方案在图片识别分类应用上，相比GPU能效比能提升7倍以上！同样，与通用CPU对比，在处理这种高并行、小计算量的任务时，FPGA的优势将更明显。

除了AI，FPGA还有更多想象空间

除了在AI的线上推理方向，FPGA在其他很多方面也能发挥价值。在面向计算密集型任务，比如矩阵运算、图像处理、机器学习、压缩、非对称加密、搜索的排序等的时候，拥有流水线并行和数据并行的FPGA效率会高很多。

目前，浪潮已经推出面向WebP图片转码、Gzip数据压缩和深度学习等方向的完整解决方案，能够实现10倍以上的图片压缩吞吐能力，8-10倍的数据压缩效率和10倍以上的图片分类识别能效比。

继续阅读