来自微软、Cray和瑞士国家超级计算中心(CSCS)的一组研究人员一直致力于一个旨在加速在超级计算机上使用深度学习算法的项目。
该团队已经将微软认知工具包——一个用于培训深度计算算法的开源套件——扩展到超过1000个Nvidia Tesla P100 GPU加速器部署在瑞士国家超级计算中心代号为Piz Daint的Cray XC50超级计算机上。
该项目让研究人员可以在超级计算机上大规模运行更大、更复杂、多层的深度学习工作负载。
深度学习是机器学习的一个新兴分支,利用多处理层来处理复杂问题。虽然研究人员希望运行更大规模的深度学习模型,但是传统系统和架构给问题的解决带来了一定的局限性,因为培训模型的时间很长。
但是通过加速培训过程,而不是等待数周甚至是数月后才能得出结果,数据科学家可以在数小时甚至数分钟内获得结果。这将帮助研究人员解决新的计算问题,例如从图像识别升级到视频识别,或者从语音识别到根据上下文的自然语言处理。
Cray表示,深度学习在算法方面和传统运行在大规模并行超级计算机上的应用是类似的,通过优化节点间的通信,每个培训任务可以利用更多的计算资源,缩短培训单个模型所需的时间。
瑞士超级计算中心主任Thomas Chulthess教授说,这项工作意味着研究人员和科学家将能够利用他们现有的Cray XC超级计算机解决那些“以前不可行的”深度学习问题。