CPFS数据流动,如何实现高效与安全的双向传输?
- 行业动态
- 2025-01-26
- 2511
CPFS 数据流动是阿里云文件存储 CPFS 与对象存储 OSS 的集成功能,于 2021 年 9 月 29 日后建立的 CPFS 文件系统适用。它可将 OSS 中的数据合并入 CPFS 进行统一命名空间管理,用户能手动或自动将 OSS 数据复制到 CPFS,通过 POSIX 文件接口高速访问 OSS 数据,满足大数据计算等场景需求。
CPFS(Cloud Platform File System)是阿里云提供的一种高性能、高可用的文件存储服务,它支持多种文件协议,包括POSIX文件接口,CPFS数据流动是指CPFS与对象存储OSS之间的数据交互和传输过程,这一特性允许用户将OSS中的数据合并入CPFS进行统一管理,实现数据的高效流转和利用。
数据流动模式
1、元数据导入:在创建好CPFS文件系统后,用户可以通过创建“数据流动”将某个OSS bucket链接到CPFS文件系统的某个Fileset,在配置数据流动时,用户可以设置是否在添加新对象或更新现有对象时自动更新CPFS中的元数据,默认情况下,CPFS会一次性导入对应OSS bucket中的所有对象的元数据,但不会自动导入新的或更改的对象,用户也可以选择开启元数据自动更新功能,此时CPFS会根据配置的时间间隔和OSS前缀自动更新指定目录下的新或更改的对象的元数据至CPFS文件系统。
2、数据导入:当CPFS从链接的OSS bucket导入新对象时,它只下载这些对象的名称、前缀和权限(即元数据),并使它们在文件系统中显示为新文件和目录,如果对象不包含元数据,则CPFS将使用root:root和755的默认权限,在导入过程中,如果OSS中已更改的对象不再包含其元数据,则CPFS将保留当前元数据值,而不是使用默认权限,OSS对象的内容(数据)有两种方式进行导入:通过控制台或者OpenAPI创建数据流动任务手动导入CPFS;或者在应用程序首次访问时由CPFS自动加载到文件系统中(Lazy-load)。
3、数据删除:为了高效利用CPFS有限的空间,数据流动功能还提供了删除CPFS中数据但保持元数据的能力,用户在将数据导出至OSS或者确认OSS上有必要备份后,可以通过CPFS控制台或者OpenAPI删除CPFS中文件的数据,腾出空间供其他数据集导入使用,删除操作后,CPFS上的元数据仍将保留,下次读取数据时,CPFS会从OSS自动拉取。
性能特点
1、高带宽:每个数据流动的带宽都可以在创建时进行配置,也可以在创建后进行调整,根据实际需求和网络条件,用户可以灵活地设置数据传输的速率。
2、并行化读取:CPFS在进行数据导入时会对所有的OSS对象进行并行化读取,从而提高数据传输的效率。
3、成本优化:数据流动按照带宽进行收费,并根据CPFS文件系统的容量大小进行了一定减免,这意味着用户可以在享受高速数据传输的同时,也能有效地控制成本。
适用场景
1、自动驾驶:在自动驾驶领域,车辆会定期向云端上传大量传感器数据,通过CPFS数据流动功能,这些数据可以被快速导入到CPFS中,供机器学习算法进行分析和处理。
2、媒体娱乐:对于媒体和娱乐行业来说,大量的视频素材需要被上传到云端进行处理和渲染,CPFS数据流动功能可以帮助用户快速地将这些素材导入到CPFS中,并通过GPU进行高效的渲染和编辑。
3、金融量化分析:在金融领域,大量的交易数据需要被实时处理和分析,CPFS数据流动功能可以帮助用户快速地将这些数据导入到CPFS中,并进行高效的量化分析。
4、基因计算:在基因计算领域,大量的DNA数据需要被上传到云端进行分析和处理,CPFS数据流动功能可以帮助用户快速地将这些数据导入到CPFS中,并利用专业的软件进行高效的分析和计算。
FAQs
1、Q:CPFS数据流动功能是否支持跨账号操作?
A:是的,CPFS智算版支持跨账号数据流动,用户需要在源端OSS Bucket所在账号进行AliyunNasCrossAccountDataFlowDefaultRole角色授权,并将CPFS智算版文件系统所在账号的UID加入该角色权限中,然后登录目标账号创建跨账号数据流动和数据导入导出任务。
2、Q:CPFS数据流动功能是否有使用限制?
A:是的,CPFS数据流动功能有一些使用限制,单个CPFS智算版文件系统最多支持创建10个数据流动;单个CPFS智算版文件系统的文件路径只能与一个OSS Bucket链接;CPFS智算版不支持与其他区域的OSS Bucket创建数据流动等。
小编有话说
CPFS数据流动功能为用户提供了一种高效、便捷的方式来管理和利用存储在OSS上的数据,通过这一功能,用户可以轻松地将OSS中的数据合并入CPFS进行统一管理,并在需要时快速地进行数据的导入、导出和删除操作,CPFS数据流动功能还具备高性能、低成本的特点,可以满足用户在自动驾驶、媒体娱乐、金融量化分析等多个领域的大数据计算需求。
本站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本站,有问题联系侵删!
本文链接:http://www.xixizhuji.com/fuzhu/399892.html