上一次,我们介绍了如何安装cGPU服务,达到隔离GPU资源,实现多个容器共用一张显卡的目的。这次我们以搭建TensorFlow深度学习框架为例介绍如何在GPU实例上部署NGC环境。NGC 是 GPU 优化的深度学习、机器学习和高性能计算 (HPC) 软件中心,可以处理所有例行任务,以便数据科学家、开发者和研究人员可以专注于构建解决方案,收集各种见解,并提供业务价值。
目前NGC在阿里云gn5实例作了全面部署,并且在镜像市场提供了针对NVIDIA Pascal GPU优化的NGC容器镜像。通过部署镜像市场的NGC容器镜像,开发者能简单快速地部署NGC容器环境,即时访问优化后的深度学习框架,大大缩减产品开发以及业务部署的时间,实现开发环境的预安装;同时支持调优后的算法框架,并且保持持续更新。
NGC网站提供了目前主流深度学习框架不同版本的镜像(例如Caffe、Caffe2、CNTK、MxNet、TensorFlow、Theano、Torch),您可以选择需要的镜像部署环境。
支持部署NGC环境的实例规格族包括:
- gn4、gn5、gn5i、gn6v、gn6i、gn6e
- ebmgn5i、ebmgn6i、ebmgn6v、ebmgn6e
下面以gn5实例为例,为您演示创建GPU实例和部署NGC环境的步骤。
操作步骤
GPU云服务器概念
名词 | 说明 |
---|---|
GPU | 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。 |
EGS | 弹性GPU服务(Elastic GPU Service)。阿里云弹性计算和GPU高速的并行异构的加速器的组合服务,兼具弹性计算的特点和GPU的加速能力。 |
CUDA | NVIDIA推出的通用并行计算架构,帮助您使用NVIDIA GPU解决复杂的计算问题。 |
cuDNN | NVIDIA推出的用于深度神经网络的GPU加速库。 |
ECS通用概念
概念 | 说明 |
---|---|
地域 | 物理的数据中心。 |
可用区 | 同一地域内,电力和网络互相独立的物理区域。 |
ECS实例 | 等同于一台虚拟服务器,内含CPU、内存、操作系统、网络配置、磁盘等基础的计算组件。 |
镜像 | 提供实例的操作系统、初始化应用数据及预装的软件。 |
块存储 | 块设备类型产品,具备高性能和低时延的特性。可以像使用物理硬盘一样格式化并建立文件系统,满足大部分通用业务场景下的数据存储需求。 |
快照 | 某一时间点一块云盘的数据状态文件。 |
安全组 | 由同一地域内具有相同保护需求并相互信任的实例组成,是一种虚拟防火墙,用于设置实例的网络访问控制。 |
SSH密钥对 | 一种安全便捷的登录认证方式,由公钥和私钥组成,仅支持Linux实例。 |
专有网络VPC | 逻辑上彻底隔离的云上私有网络。您可以自行分配私网IP地址范围、配置路由表和网关等。 |
弹性网卡 | 是一种可以绑定到专有网络VPC类型ECS实例上的虚拟网卡。 |
标签 | 标记资源,允许企业或个人将相同作用的云服务器ECS资源归类,便于搜索和资源聚合。 |
资源组 | 对您拥有的云资源从用途、权限、归属等维度上进行分组,实现企业内部多用户、多项目的资源分级管理。 |