/ 中存储网

Alluxio Enterprise AI V3.5 增强了 AI 工作流

2025-02-07 02:56:00 来源:中存储

中存储消息,Alluxio 公司 宣布了 Alluxio Enterprise AI 的最新增强功能。

Alluxio Enterprise AI V3.5 增强了 AI 工作流

版本 3.5 展示了该平台通过新的仅缓存写入模式、高级缓存管理和增强的 Python SDK 集成等功能来加速 AI 模型训练和简化作的能力。

这些更新使组织能够更快地训练模型,更高效地处理海量数据集,并简化 AI 基础设施运营的复杂性。

AI 驱动型工作负载在管理数据量和复杂性方面面临重大挑战,这可能导致效率低下和训练时间增加。确保快速、优先访问关键数据并与常见 AI 框架无缝集成,对于优化性能和加速模型开发至关重要。

最新版本的Alluxio Enterprise AI包含新功能,旨在进一步加速AI工作负载的性能,”Alluxio创始人兼首席执行官Haoyuan (HY) Li说。“我们的客户正在使用通常跨越数十亿个文件的大量数据集来训练 AI 模型。Alluxio Enterprise AI 3.5 旨在确保工作负载以最佳性能运行,同时简化 AI 基础设施的管理和运营。

Alluxio Enterprise AI V3.5 增强了 AI 工作流

Alluxio Enterprise AI 3.5 版本包括以下主要功能:

  • 新的缓存模式加速了 AI 检查点 – Alluxio 的新 CACHE_ONLY 写入模式显著提高了写入作的性能,例如在 AI 模型训练期间写入检查点文件。启用后,此模式仅将数据写入 Alluxio 缓存,而不是底层文件系统 (UFS)。通过绕过 UFS,通过消除通常与底层存储系统相关的瓶颈来提高写入性能。此功能是实验性的。
  • 高级缓存驱逐策略提供细粒度控制 – Alluxio 的 TTL 缓存驱逐策略允许管理员对缓存数据执行生存时间 (TTL) 设置,确保根据定义的策略自动驱逐不经常访问的数据。Alluxio 基于优先级的缓存驱逐策略使管理员能够为特定数据定义缓存优先级,这些优先级会覆盖 Alluxio 默认的最近最少使用(LRU)算法,确保关键数据保留在缓存中,即使它将被驱逐。这对于需要对关键数据集进行一致低延迟访问的工作负载来说是理想的选择。TTL 和基于优先级的缓存驱逐策略均已正式发布。
  • Python SDK 集成增强了 AI 框架兼容性 – 该公司的 Python SDK 现在支持领先的 AI 框架,包括 PyTorch、PyArrow 和 Ray。这些集成提供了统一的 Python 文件系统接口,使应用程序能够与各种存储后端无缝交互。这通过促进对本地和远程存储系统的快速和重复访问,简化了 Alluxio Enterprise AI 对 Python 应用程序的采用,特别是那些处理数据密集型工作负载和 AI 模型训练的应用程序。此功能是实验性的。

该版本还为 Alluxio 的 S3 API 引入了一些增强功能,这些增强功能可用:

  • 支持 HTTP 持久连接 (HTTP keep-alive) – Alluxio 现在支持 HTTP 持久连接,它为多个请求维护单个 TCP 连接。这减少了为每个请求打开新连接的开销,并将 4KB S3 ReadObject 请求的延迟降低了约 40%。
  • TLS 加密以增强安全性 – Alluxio S3 API 和 Alluxio worker 之间的通信现在支持 TLS 加密,确保数据传输安全。
  • 多段上传 (MPU) 支持 – Alluxio S3 API 现在支持多段上传,它将文件拆分为多个段并单独上传每个段。此功能简化了上传过程,并提高了大型文件的吞吐量。

版本 3.5 中包含的其他增强功能包括:

  • Alluxio Index Service – 一种新的缓存服务,可以提高存储数亿个文件和子目录的目录列表的性能。与 UFS 上的目录列表相比,Index Service 通过从缓存中提供目录列表详细信息来确保可扩展性,并提供 3-5 倍的结果。此增强功能是实验性的。
  • UFS 读取速率限制器 – 管理员现在可以设置速率限制来控制单个 Alluxio Worker 可以从 UFS 读取的最大带宽。通过配置 UFS 读取速率限制器,管理员可以确保在保持系统稳定性的同时优化资源利用率。Alluxio 支持各种 UFS 类型的速率限制,包括 S3、HDFS、GCS、OSS 和 COS。此增强功能已正式发布。
  • 支持异构 worker 节点 – Alluxio 现在支持具有异构资源配置(CPU、内存、磁盘和网络)的 worker 节点的集群。此增强功能为管理员在配置集群方面提供了更大的灵活性,并提供了优化资源分配的更多机会。此增强功能已正式发布。