ERNIEKit部署安装说明

更新时间：2022-08-18

概述

本文档用于首次部署的用户了解，产品部署所需的硬件、系统等环境配置，本产品部署需要鉴权服务安装和产品安装两个部分，请您参看各部分详细内容。

一、ERNIEKit的环境要求说明

1.1 硬件要求

GPU：推荐Nvidia V100-32G*，其他可支持的型号有：A100、A10、P4、P40、T4；
CPU :32核（建议参考配置）
内存：128G+（建议参考配置）
硬盘：1Tb（及以上）

说明：百亿参数及更大模型训练需要八卡外，其余尺寸的模型1卡即可训练；CPU主要运行操作系统和鉴权，可适度调低核数配置；

1.2 系统环境要求

操作系统要求：CentOS 7+（建议）
Docker环境要求: 19.03版本及以上（推荐使用）。nvidia-docker请确保加载镜像可以使用GPU
其他驱动环境：ERNIEKit的镜像默认提供显卡驱动、CUDA、cuDNN，无需考虑版本号

ERNIEKit镜像中，将会对 CUDA、cuDNN和驱动的版本相互匹配（根据您的机器V100、A10、A100等，我们会在镜像中安装好对应的CUDA版本以及与之匹配的cuDNN和显卡驱动，提供whl包进行训练环境配置；驱动匹配详情可参考表格）

国产化系统和芯片的支持，具体可需要通过商务咨询，请将适配的系统、芯片指令集的信息

二、鉴权服务部署

2.1 指纹提取指南

https://ai.baidu.com/ai-doc/PRIVATEAI/sk3d6jccg

提交申请后，由文心RD提供后续鉴权部署包和ERNIEKit开发套件镜像

2.1 鉴权硬件要求

CPU 架构:AMD 64/x86_64
内存:>=32G(推荐,不强制)
硬盘:>=512G (推荐)
网络环境:机器需要在局域网内，且能获取到 ip 地址

2.2 鉴权操作系统要求

支持的 Linux 发行版列表：Ubuntu: 14、16、18，CentOS:7.0 及以上
Linux 内核要求 >=3.10
GLIBC >=2.17
GLIBCXX >=3.4.19
Python 2.7、Python 3.6

2.3 鉴权服务部署流程

下面我们以一个鉴权服务的安装部署来进行讲解：

1、下载部署包：获取部署包安装文件下载链接(由百度文心提供)并下载。下载完成的文件示例如下：

  609859F08F4B4FB782948D669EE3CFE3.tar.gz

2、执行以下命令解压部署包

tar zxvf 609859F08F4B4FB782948D669EE3CFE3.tar.gz

3、解压后进入original目录执行 bash download.sh 命令获取全部安装文件，执行脚本后会自动下载，文件包括：鉴权服务安装包、应用服务安装包以及 docker 安装包等基础依赖环境

bash download.sh

4、将带有全部安装文件的original文件夹上传到待部署的服务器中，进入以下文件路径

cd original/package/Install

5、执行安装指令

python install.py inall

7、在安装过程中，将会自动进行环境检查，如果安装进程停住并提示如下命令提示，表明环境检查失败,请先排查失败的环境检查项，再重新执行安装，或者输入continue强制继续安装

Environment checking failed! Please fix them before installation.

8、安装过程中将会提示输入如下命令。可参考两种情形进行配置：a、如机器只有一块已激活网卡，则输入本机实际网络地址即可; b、如机器有多张网卡，并且已激活多块网卡，则任选一个 IP 地址输入即可，不要输入本机的所有 IP 地址

 auth server cluster's ip

9、在部署 GPU 算子时,将出现如下指令，则需输入 GPU 算子的显卡序号。可以通过 nvidia-smi 命令查看显卡序号。如果显卡的 ID 是从 0 开始计算，则一块显卡就输入 0

enter value for gpu index numbers used by this application,separated by comma,e.g. 0,1,2:

10、提示安装成功后，检查服务是否启动，使用如下命令：

docker ps

11、如果服务没有启动，可以使用如下指令, 查看容器 id;

 docker ps -a

12、鉴权服务默认的 http 端口为 8443，通过 netstat -apn | grep 8443 可以看端口是否已经被监听。应用服务默认的 http 端口请参考对应技术方向的接口说明文档(上述流程确保鉴权服务走通) 参考文档:https://ai.baidu.com/ai-doc/PRIVATEAI/Ck3d6jc4q

注:上述方式为单机一键部署，如要多机分离部署，可参考如下链接:https://ai.baidu.com/ai-doc/PRIVATEAI/Qk3d6jbah

三、下载使用文心ERNIEKit镜像

下载ERNIEKit镜像并解压(具体镜像下载地址由百度提供)，示例如下:

1. 下载
wget http://bj.bcebos.com/wenxin-premium-package/wenxin-ernie2.0.0.tar.gz(具体地址后续由文心提供)

2. 解压
tar -xvzf wenxin-ernie2.0.0.tar.gz

3. 加载镜像
docker load < wenxin-ernie2.0.0-gpu.tar

4. 启动ERNIEKit镜像（注意，这里的your_authenization-server-ip是步骤2中鉴权服务器的ip地址）
docker run -d -e AIPE_SECURITY_SERVER_HOST=your_authenization-server-ip --gpus all iregistry.baidu-int.com/aig-textone/pd2.2.1-cuda10.1-cudnn7-py3:wenxin-2.0.0-20220411

注意:如果出现鉴权失败错误提示，需要export鉴权服务对应机器的ip地址

# “your_authenization-server-ip”是步骤2中鉴权服务器的ip地址
export AIPE_SECURITY_SERVER_HOST=your_authenization-server-ip

四、ERNIEKit的使用

您可以参考30s快速使用文档来了解ERNIEKit的使用

ERNIE大模型介绍

指纹提取工具