ERNIEKit部署安装说明
概述
本文档用于首次部署的用户了解,产品部署所需的硬件、系统等环境配置,本产品部署需要鉴权服务安装和产品安装两个部分,请您参看各部分详细内容。
一、ERNIEKit的环境要求说明
1.1 硬件要求
- GPU:推荐Nvidia V100-32G*,其他可支持的型号有:A100、A10、P4、P40、T4;
- CPU :32核(建议参考配置)
- 内存:128G+(建议参考配置)
- 硬盘:1Tb(及以上)
说明:百亿参数及更大模型训练需要八卡外,其余尺寸的模型1卡即可训练;CPU主要运行操作系统和鉴权,可适度调低核数配置;
1.2 系统环境要求
- 操作系统要求:CentOS 7+(建议)
- Docker环境要求: 19.03版本及以上(推荐使用)。nvidia-docker请确保加载镜像可以使用GPU
- 其他驱动环境:ERNIEKit的镜像默认提供显卡驱动、CUDA、cuDNN,无需考虑版本号
ERNIEKit镜像中,将会对 CUDA、cuDNN和驱动的版本相互匹配(根据您的机器V100、A10、A100等,我们会在镜像中安装好对应的CUDA版本以及与之匹配的cuDNN和显卡驱动,提供whl包进行训练环境配置;驱动匹配详情可参考表格)
国产化系统和芯片的支持,具体可需要通过商务咨询,请将适配的系统、芯片指令集的信息
二、鉴权服务部署
2.1 指纹提取指南
https://ai.baidu.com/ai-doc/PRIVATEAI/sk3d6jccg
提交申请后,由文心RD提供后续鉴权部署包和ERNIEKit开发套件镜像
2.1 鉴权硬件要求
- CPU 架构:AMD 64/x86_64
- 内存:>=32G(推荐,不强制)
- 硬盘:>=512G (推荐)
- 网络环境:机器需要在局域网内,且能获取到 ip 地址
2.2 鉴权操作系统要求
- 支持的 Linux 发行版列表:Ubuntu: 14、16、18,CentOS:7.0 及以上
- Linux 内核要求 >=3.10
- GLIBC >=2.17
- GLIBCXX >=3.4.19
- Python 2.7、Python 3.6
2.3 鉴权服务部署流程
下面我们以一个鉴权服务的安装部署来进行讲解:
1、下载部署包:获取部署包安装文件下载链接(由百度文心提供)并下载。下载完成的文件示例如下:
609859F08F4B4FB782948D669EE3CFE3.tar.gz
2、执行以下命令解压部署包
tar zxvf 609859F08F4B4FB782948D669EE3CFE3.tar.gz
3、解压后进入original目录执行 bash download.sh 命令获取全部安装文件, 执行脚本后会自动下载,文件包括:鉴权服务安装包、应用服务安装包以及 docker 安装包等基础依赖环境
bash download.sh
4、将带有全部安装文件的original文件夹上传到待部署的服务器中,进入以下文件路径
cd original/package/Install
5、执行安装指令
python install.py inall
7、在安装过程中,将会自动进行环境检查,如果安装进程停住并提示如下命令提示,表明环境检查失败,请先排查失败的环境检查项,再重新执行安装,或者输入continue强制继续安装
Environment checking failed! Please fix them before installation.
8、安装过程中将会提示输入如下命令。可参考两种情形进行配置:a、如机器只有一块已激活网卡,则输入本机实际网络地址即可; b、如机器有多张网卡,并且已激活多块网 卡,则任选一个 IP 地址输入即可,不要输入本机的所有 IP 地址
auth server cluster's ip
9、在部署 GPU 算子时,将出现如下指令,则需输入 GPU 算子的显卡序号。可以通过 nvidia-smi 命令查看显卡序号。如果显卡的 ID 是从 0 开始计算,则一块显卡就输入 0
enter value for gpu index numbers used by this application,separated by comma,e.g. 0,1,2:
10、提示安装成功后,检查服务是否启动,使用如下命令:
docker ps
11、如果服务没有启动,可以使用如下指令, 查看容器 id;
docker ps -a
12、鉴权服务默认的 http 端口为 8443,通过 netstat -apn | grep 8443 可以 看端口是否已经被监听。应用服务默认的 http 端口请参考对应技术方向的接口说明文档(上述流程确保鉴权服务走通) 参考文档:https://ai.baidu.com/ai-doc/PRIVATEAI/Ck3d6jc4q
注:上述方式为单机一键部署,如要多机分离部署,可参考如下链接:https://ai.baidu.com/ai-doc/PRIVATEAI/Qk3d6jbah
三、下载使用文心ERNIEKit镜像
下载ERNIEKit镜像并解压(具体镜像下载地址由百度提供),示例如下:
1. 下载
wget http://bj.bcebos.com/wenxin-premium-package/wenxin-ernie2.0.0.tar.gz(具体地址后续由文心提供)
2. 解压
tar -xvzf wenxin-ernie2.0.0.tar.gz
3. 加载镜像
docker load < wenxin-ernie2.0.0-gpu.tar
4. 启动ERNIEKit镜像(注意,这里的your_authenization-server-ip是步骤2中鉴权服务器的ip地址)
docker run -d -e AIPE_SECURITY_SERVER_HOST=your_authenization-server-ip --gpus all iregistry.baidu-int.com/aig-textone/pd2.2.1-cuda10.1-cudnn7-py3:wenxin-2.0.0-20220411
注意:如果出现鉴权失败错误提示,需要export鉴权服务对应机器的ip地址
# “your_authenization-server-ip”是步骤2中鉴权服务器的ip地址
export AIPE_SECURITY_SERVER_HOST=your_authenization-server-ip
四、ERNIEKit的使用
您可以参考30s快速使用文档来了解ERNIEKit的使用