通常AI数据处理分为,数据采集,数据清洗,数据标注,模型训练,模型部署,推理等场景。本方案适用于AI训练场景,比如自动驾驶的模型训练(图片),自然语言处理的模型训练(语音)等各种AI模型训练的场景。在训练的场景中,计算部分通常使用GPU来进行,通常多台GPU服务器会协同来完成同一个任务,因此存储一般采用共享存储。
实现的方式
- 搭建AI图片训练基础环境。
- 使用CPFS存储训练数据。
- 使用飞天AI加速训练服务加速训练。
- 使用Arena一键提交作业。
部署架构图
这里提供一个Imagenet训练的示例。Imagenet 数据集是按照WordNet架构组织的大规模的带标签的图像数据集,大约1500万张图片,这些图片都是经过人工筛选和标记的。其中ISLVRC2012使用的是Imagenet的子集,大约128万张。我们接下来的例子以ISVRC2012为例。其中验证集约5万张图片。
前置条件4
1.创建CPFS5
1.1.创建VPC5
1.2.创建CPFS实例7
2.下载imagenet训练集和demo训练脚本11
2.1.创建ECS实例11
2.2.挂载CPFS实例14
2.3.下载Imagenet训练集.15
2.4.转换数据格式..17
2.4.1.安装转换工具和脚本.17
2.4.2.预处理ILSVRC2012_img_val数据..18
2.4.3.预处理ILSVRC2012 bouding box数据.20
2.4.4.转换ILSVRC2012_img_train和val数据集为tfrecord格式20
2.5.下载demo脚本.22
2.6.卸载文件系统..22
2.7.释放这台下载用的ECS.22
3.创建ACK容器集群并挂载存储服务26
3.1.创建ACK容器集群.26
3.1.1.RAM授权..26
3.1.2.创建集群..27
3.2.PVC方式挂载CPFS服务配置..34
4.部署Arena工具.40
5.运行demo示例..43
5.1.在master节点上挂载存储系统..43
5.1.1.登录Master节点.43
5.1.2.挂载cpfs.43
5.2.运行训练脚本..43
5.2.1.构建环境..43
5.2.2.修改脚本..45
5.2.3.脚本解析..46
5.2.4.运行单机训练任务48
5.3.运行多机训练任务:..51
5.4.跑一个验证的作业:..53
6.将数据归档到OSS..55
7.在容器集群内部添加已有节点.60
8.附录-使用NAS作为共享存储..69
8.1.文件存储NAS服务选型69
8.2.部署性能型NAS服务..70
8.3.创建一台ECS并挂载NAS服务72
8.4.卸载文件系统..79
8.5.ACK集群挂载存储系统.79
8.5.1.PVC方式挂载NAS服务配置.79
8.5.1.1.获取NAS信息.79
8.5.1.2.配置Kubernetes中的存储卷和存储声明..81
8.6.运行demo示例.83
8.6.1.在master节点上挂载存储系统.83
8.6.2.登录Master节点.83
8.6.3.挂载nas:83
8.6.4.挂载cpfs:..84
8.7.Demo1:采用TF框架,并利用实际数据进行训练..84
8.7.1.构建环境..84
8.7.2.修改脚本..86
8.7.2.1.使用nas86
8.7.3.运行训练任务.87
8.8.Demo2:采用Pytorch框架,使用模拟数据进行训练..91
详细内容请联系在线客服。