CPFS(Cloud Platform File System)数据流动是指在阿里云的文件存储系统中,实现CPFS文件系统与OSS(Object Storage Service)Bucket之间的数据传输和同步的过程,以下是关于CPFS数据流动的详细解释:
1、创建数据流动
同账号数据流动:用户需要在CPFS控制台选择目标文件系统,点击“数据流动”页签,然后点击“创建数据流动”,在创建数据流动对话框中,配置CPFS文件系统路径、源端OSS Bucket、OSS Object Prefix等参数,并选择是否使用HTTPS访问OSS,最后同意授权CPFS访问对象存储OSS服务资源的权限关联角色。
跨账号数据流动:需要先登录源端OSS Bucket所在账号进行AliyunNasCrossAccountDataFlowDefaultRole角色授权,将CPFS智算版文件系统所在账号的UID加入该角色权限中,然后登录CPFS智算版文件系统所在账号,按照同账号数据流动的步骤创建跨账号数据流动。
2、数据流动任务
批式任务:适用于计算任务开始前数据集的预加载,用户可以手动创建批式任务,将OSS中的数据批量导入到CPFS中。
流式任务:适用于计算任务训练中模型多个Checkpoint文件持续性的写回与预加载场景,流式任务会实时监控OSS Bucket中的对象变化,并将变化的数据自动同步到CPFS中。
3、数据流动管理
查看数据流动:用户可以在CPFS控制台查看已创建的数据流动,并在指定数据流动上创建数据流动任务。
修改数据流动:仅支持修改数据流动的描述信息。
删除数据流动:删除数据流动后会清除指定数据流动的所有任务,且无法同步数据,如果存在运行中的流式任务或者正在运行中的批式任务,则不能删除数据流动。
停止数据流动:停止数据流动后,会在下一个计费周期停止计费,且无法导入和导出数据,当前正在执行的任务也会被取消。
4、自动更新:配置自动更新(AutoRefresh)后,当源端存储数据发生变化时,变化的元数据会自动同步到CPFS文件系统,变化的数据会在用户访问文件时按需加载,或者启动数据流动任务加载数据,自动更新依赖EventBridge收集源端OSS存储的对象修改事件,需要先开通EventBridge服务。
CPFS数据流动为用户提供了灵活高效的数据传输方式,满足了不同业务场景下对数据处理和分析的需求。