/ 中国存储网

AWS 启动 S3 文件,使 S3 桶作为文件系统可访问

2026-04-14 00:09:15 来源:中国存储网

中国存储网消息,近日AWS 启动 S3 文件,以下为官网博客内容:

这是一种全新的文件系统,能够无缝连接任何 AWS 计算资源与亚马逊简单存储服务(Amazon S3)。十多年前,作为AWS培训师,我花了无数小时讲解对象存储和文件系统之间的根本区别。我最喜欢的比喻是把S3的对象比作图书馆里的书籍(你不能编辑一页,需要替换整本书),和电脑上可以逐页修改的文件。我绘制图表,创建隐喻,帮助客户理解为何不同工作负载需要不同存储类型。如今,这种区分变得更加灵活。

AWS 启动 S3 文件,使 S3 桶作为文件系统可访问

通过S3文件,Amazon S3是首个也是唯一一个提供功能齐全、高性能文件系统访问数据的云对象存储。它让你的桶以文件系统的形式访问。这意味着文件系统上的数据变更会自动反映在 S3 桶中,你可以对同步进行细致控制。S3 文件可以附加到多个计算资源上,实现集群间的数据共享而不重复。

直到现在,你必须在亚马逊S3的成本、耐用性以及能够原生消费数据的服务和文件系统的交互功能之间做选择。S3 Files 消除了这种权衡。S3 成为组织所有数据的中心枢纽。无论你是在运行生产应用、训练机器学习模型,还是构建代理型AI系统,都可以直接从任何AWS计算实例、容器或函数访问它。

你可以在亚马逊弹性计算云(Amazon EC2)实例、运行于亚马逊弹性容器服务(Amazon ECS)或亚马逊弹性Kubernetes服务(Amazon EKS)或AWS Lambda函数上的容器中,作为本地文件系统访问任何通用桶。文件系统将 S3 对象呈现为文件和目录,支持所有网络文件系统(NFS)v4.1+ 操作,如创建、读取、更新和删除文件。

当你通过文件系统处理特定文件和目录时,相关的文件元数据和内容会被存储到文件系统的高性能存储中。默认情况下,享受低延迟访问的文件会从高性能存储中存储和提供。对于未存储在高性能存储中的文件,如需要大量顺序读取的文件,S3 文件会自动直接从亚马逊 S3 提供这些文件,以最大化吞吐量。对于字节范围的读取,仅传输请求的字节,从而最大限度地减少数据移动和成本。

系统还支持智能预取,以预判您的数据访问需求。你还可以细致控制存储在文件系统高性能存储中的内容。你可以选择是加载完整文件数据还是仅加载元数据,这意味着你可以针对自己的访问模式进行优化。

在底层,S3 文件使用亚马逊弹性文件系统(Amazon EFS),并为活跃数据提供约 1 毫秒的延迟。该文件系统支持多个计算资源的并发访问,采用NFS近开放一致性,非常适合交互式共享工作负载,从通过基于文件的工具协作的代理型AI代理到机器学习训练流水线处理数据集。

AWS 启动 S3 文件,使 S3 桶作为文件系统可访问

需要知道的事情 让我分享一些重要的技术细节,我觉得你会觉得有用。

  • S3 文件集成了 AWS 身份与访问管理(IAM)用于访问控制和加密。你可以使用身份和资源策略在文件系统和对象层面管理权限。
  • 数据传输时始终使用TLS 1.3加密,静态时使用Amazon S3管理密钥(SSE-S3)或客户管理密钥,使用AWS密钥管理服务(AWS KMS)。
  • S3 文件对文件和目录使用 POSIX 权限,通过对应 S3 桶中作为对象元数据存储的文件权限进行用户 ID(UID)和组 ID(GID)检查。
  • 利用Amazon CloudWatch的流量监测S3文件,监测硬盘性能和更新,以及AWS CloudTrail记录管理事件。
  • 确认你的EC2实例上安装了最新版本的EFS驱动(amazon-efs-utils包)。该软件包预装在AWS提供的亚马逊机器镜像(AMI)上。在撰写本文时,您可以更新到最新版本。
  • 在这篇文章中,我向你展示了如何使用EC2实例中的S3文件。你也可以从ECS或EKS容器挂载S3桶作为文件系统,无论是否使用AWS Fargate,以及Lambda函数。

我在客户对话中经常听到的另一个问题是关于为你的工作负载选择合适的文件服务。是的,我知道你在想什么:AWS及其看似重叠的服务,让云架构师在架构评审会议上感到娱乐。让我帮你解开这个谜团。

S3 文件最适合你需要通过高性能文件系统接口对存储在 Amazon S3 的数据进行交互式共享访问。它非常适合需要多个计算资源——无论是生产应用、使用 Python 库和 CLI 工具的代理型 AI 代理,还是机器学习(ML)训练流水线——协作读取、写入和变异数据的工作负载。你可以在计算集群间共享访问,无需数据重复,延迟低于毫秒,并实现与 S3 桶的自动同步。

对于从本地NAS环境迁移的工作负载,Amazon FSx提供了你所需的熟悉功能和兼容性。Amazon FSx也非常适合高性能计算(HPC)和GPU集群存储,配合Amazon FSx for Lustre。当你的应用需要Amazon FSx for NetApp ONTAP、Amazon FSx for OpenZFS或Amazon FSx for Windows File Server等特定文件系统能力时,它尤其有价值。

价格与可用性

S3 文件现已在所有商业 AWS 区域提供。

你为存储在 S3 文件系统中的数据部分付费,用于小文件读取和所有写操作,以及文件系统与 S3 桶之间数据同步时的 S3 请求。亚马逊S3的定价页面有所有细节。

根据与客户的讨论,我认为S3文件通过消除数据孤岛、同步复杂性和手动数据在对象和文件之间移动,有助于简化云架构。无论你是在运行已经支持文件系统的生产工具,还是构建依赖基于文件的Python库和shell脚本的代理AI系统,亦或是准备用于机器学习训练的数据集,S3文件都能让这些交互式、共享、层级化工作负载直接访问S3数据,而无需在亚马逊S3的耐用性、成本效益与文件系统的交互性能力之间做出选择。你现在可以用Amazon S3作为所有组织数据的存放平台,知道这些数据可以直接从任何AWS计算实例、容器和函数访问。