电子芯片网消息,AWS发布了 EC2 Trn3 UltraServers,搭载基于3nm技术的全新Trainium3 人工智能芯片。此次发布面向寻求提升AI模型训练和推理性能的组织,同时降低相关成本和能耗。
芯片性能
Trainium3芯片的计算性能是其前代Trainium2的4.4倍,能效也高出4倍。每台 Trn3 UltraServer 最多可容纳 144 颗 Trainium3 芯片,实现高达 362 个 FP8 petaFLOP。该系统拥有近四倍的内存带宽,便于快速处理更大更复杂AI模型的需求。
Trainium3 包含了芯片架构、互连和内存子系统的改进。这些升级旨在消除大规模人工智能训练工作中常见的瓶颈。AWS报告称,与早期模式相比,能源效率提升了40%,预计将降低数据中心的运营成本和碳足迹。
数据吞吐量
Trn3 UltraServer采用从芯片到软件层的垂直集成方法,旨在解决分布式计算中常见的通信延迟问题。其新的 NeuronSwitch-v1 组件将每个 UltraServer 内的带宽翻倍,而 Neuron Fabric 网络则将芯片间的通信延迟限制在 10 微秒以下。
这些网络改进服务于低延迟响应至关重要的人工智能应用,如强化学习和高级代理系统。根据AWS的数据,Trn3 UltraServer在内部基准测试中提供了上一代的吞吐量和响应速度,高达四倍。
可扩展性选项
对于需要进一步扩展的项目,EC2 UltraClusters 3.0 可连接数千台 Trn3 UltraServer,支持多达一百万 Trainium 芯片——比上一代增长了十倍。这一能力使组织能够处理万亿代币数据集,并同时处理数百万个并发的AI推理请求。
实际部署
已有多家客户开始采用Trainium系统。Anthropic、Karakuri、Metagenomics、Neto.ai、理光和Splashmusic等企业报告称,基于Trainium基础设施的AI训练成本降低了高达50%。亚马逊Bedrock,AWS的基础模型托管服务,已在Trainium3系统上部署了生产工作负载。
专注于生成式视频和图像模型的人工智能公司Decart利用Trainium3实现了四倍快的帧生成,成本仅为GPU的一半。AWS还支持了Anthropic最近的AI模型训练,连接了超过50万个Trainium2芯片,形成了迄今为止全球最大的AI计算集群。
未来计划
下一代芯片Trainium4的研发正在进行中,旨在进一步提升处理和内存性能。AWS表示,Trainium4将提供至少六倍的FP4处理能力、三倍FP8性能和四倍的内存带宽,支持更具挑战性的训练和推理任务。
Trainium4 计划与 NVIDIA NVLink Fusion 集成,实现基于 Trainium 和 GPU 系统的资源共享,并支持在共用服务器机架内的联合部署。这将使客户能够根据不同项目需求灵活搭配AI基础设施资源。
AWS数据与人工智能副总裁Swami Sivasubramanian表示:“Trainium3使我们能够更快地训练更大型的模型,服务更多用户,并降低成本——这些都至关重要,因为生成式人工智能在各行业的应用加速。