使用ERNIE进行训练&预测
更新时间:2022-07-28
环境安装
请参考文档:快速使用->环境配置
目录结构
阅读理解任务位于wenxin_appzoo/wenxin_appzoo/tasks/reading_comprehension
cd wenxin_appzoo/wenxin_appzoo/tasks/reading_comprehension
├── data ## 示例数据文件夹,包括各任务所需的训练集、测试集、验证集和预测集
│ ├── chid
│ │ ├── dev
│ │ │ └── dev.json
│ │ └── train
│ │ └── train.json
│ ├── cmrc2018
│ │ ├── dev
│ │ │ └── dev.json
│ │ ├── predict
│ │ │ └── predict.json
│ │ └── train
│ │ └── train.json
│ ├── cmrc2019
│ │ ├── dev
│ │ │ └── dev.json
│ │ ├── predict
│ │ │ └── predict.json
│ │ └── train
│ │ └── train.json
│ └── dureader_checklist
│ ├── dev
│ │ └── dev.json
│ ├── predict
│ │ └── predict.json
│ ├── test
│ │ └── test.json
│ └── train
│ └── train.json
├── data_set_reader
│ ├── ernie_chid_base_dataset_reader.py
│ ├── ernie_chid_dataset_reader.py
│ ├── ernie_mrc_base_dataset_reader.py
│ ├── ernie_mrc_cmrc2019_reader.py
│ ├── ernie_mrc_dataset_reader.py
│ └── ernie_mrc_dureader_checklist_reader.py
├── dict
│ ├── vocab_label_map.txt
│ └── vocab.txt
├── examples ## 各典型网络的json配置文件,infer后缀的为对应的预测配置文件
│ ├── mrc_ernie_1.5b_cmrc2018_ch_infer.json
│ ├── mrc_ernie_1.5b_cmrc2018_ch.json
│ ├── mrc_ernie_1.5b_cmrc2018_ch_save_infer_from_ckpt.json
│ ├── mrc_ernie_3.0_chid_ch_infer.json
│ ├── mrc_ernie_3.0_chid_ch.json
│ ├── mrc_ernie_3.0_chid_ch_save_infer_from_ckpt.json
│ ├── mrc_ernie_3.0_cmrc2018_ch_infer.json
│ ├── mrc_ernie_3.0_cmrc2018_ch.json
│ ├── mrc_ernie_3.0_cmrc2018_ch_save_infer_from_ckpt.json
│ ├── mrc_ernie_3.0_cmrc2019_ch_infer.json
│ ├── mrc_ernie_3.0_cmrc2019_ch.json
│ ├── mrc_ernie_3.0_cmrc2019_ch_save_infer_from_ckpt.json
│ ├── mrc_ernie_3.0_dureader_checklist_infer.json
│ ├── mrc_ernie_3.0_dureader_checklist.json
│ └── mrc_ernie_3.0_dureader_checklist_save_infer_from_ckpt.json
├── inference ## 模型预测代码
│ ├── custom_chid_inference_ernie3.py
│ ├── custom_cmrc2019_inference_ernie3.py
│ ├── custom_mrc_inference_ernie3.py
│ └── __init__.py
├── model ## 不同阅读理解任务组网代码
│ ├── ernie3_chid.py
│ ├── ernie3_mrc_cmrc2019.py
│ ├── ernie3_mrc_dureader_checklist.py
│ ├── ernie3_mrc.py
│ ├── ernie_billions_mrc.py
│ └── __init__.py
├── package
│ ├── config
│ │ ├── ernie_base_config.json
│ │ └── ernie_config.json
│ └── dict
│ └── vocab_ernie.txt
├── reader
│ ├── categorical_field_reader.py
│ └── multi_label_field_reader.py
├── run_infer_ernie3.py
├── run_infer.py
├── run_trainer.py
└── trainer
├── custom_dynamic_trainer.py
├── custom_trainer_ernie3.py
├── custom_trainer.py
└── __init__.py
训练配置
目前ERNIE 3.0 支持3个阅读理解任务,通过json文件中的dataset_reader部分对预置reader进行配置,我们以cmrc2018为例,配置文件为examples/mrc_ernie_3.0_cmrc2018_ch.json
dataset_reader
其dataset_reader部分如下所示:
{
"dataset_reader": {
"train_reader": {
"name": "train_reader",
"type": "ErnieMRCReader", ## 采用了MRC任务的专用reader
"fields": [], ## ERNIE 3.0中本字段不起作用,默认设置即可。
"config": {
"data_path": "./data/cmrc2018/train",
"shuffle": true,
"batch_size": 8,
"epoch": 2,
"sampling_rate": 1.0,
"need_data_distribute": true,
"extra_params":{
"vocab_path":"../../models_hub/ernie_3.0_ch_dir/vocab.txt", ## ERNIE 3.0 词表
"label_map_config":"",
"max_seq_len":512,
"do_lower_case":true,
"in_tokens":false,
"tokenizer": "FullTokenizer",
"doc_stride": 128, #阅读文本滑动窗口的长度,推荐默认值
"max_query_length": 64 #最大问题长度,推荐默认值
}
}
},
......
},
......
}
model配置
- 用于配置模型训练时的预置网络,包括预置网络的类别及其优化器的参数等
- ERNIE 3.0模型的model配置:ERNIE 3.0任务的model部分和ERNIE其他模型基本一致,区别在于增加了trainnig_server 和 sharding 相关的配置。
- 以./examples/mrc_ernie_3.0_cmrc2018_ch.json中的model部分为例说明。
"model": {
"type": "Ernie3MRC",
"do_lower_case": true,
"max_answer_length": 100, #答案的最大长度
"dev_set": "./data/cmrc2018/dev/dev.json", ##需要进行eval的dev数据路径
"test_set": "", ##需要进行eval的test数据路径,没有时置为空
"n_best_size": 20,
"embedding": {
"emb_dim": 4096,
"use_amp": true,
"mem_len": 0,
"weight_sharing": false,
"training_server": true, ## 是否对ERNIE 3.0 server部分进行训练
"config_path": "../../models_hub/ernie_3.0_ch_dir/ernie_config.json"
},
"optimization":{ ## 优化器设置,建议使用文心ERNIE推荐的默认设置。
"learning_rate": 3e-5,
"use_lr_decay": true,
"use_default_decay": false,
"lr_scheduler": "linear_warmup_decay",
"use_release_paddle": false,
"epsilon": 1e-6,
"warmup_steps": 0,
"warmup_proportion": 0.0,
"weight_decay": 0.01,
"use_dynamic_loss_scaling": false,
"init_loss_scaling": 32768,
"incr_every_n_steps": 1000,
"decr_every_n_nan_or_inf": 2,
"incr_ratio": 2.0,
"decr_ratio": 0.5,
"use_layer_decay": false,
"layer_decay_ratio": 0.95,
"n_layers": 60,
"sharing_layers": 48
}
},
trainer配置
- 用于配置模型训练的启动器,包括保存模型时的间隔步数、进行测试集或验证集评估的间隔步数等。
- 以下为/examples/mrc_ernie_3.0_cmrc2018_ch.json 中抽取出来的trainer部分配置,并通过注释说明。
"trainer": {
"type" : "CustomTrainerErnie3", ## 表示使用的trainer对应的类名,ERNIE 3.0目前支持静态图(CustomTrainer)。
"PADDLE_PLACE_TYPE": "gpu", ## 表示运行时的设备类别,取值为cpu和gpu。
"PADDLE_IS_FLEET": 1, ## 表示是否使用fleetrun模式进行训练,gpu多卡情况下必须设置为1,并使用fleetrun命令进行训练。
"is_recompute": true, ##是否开启重计算,默认开启。通过使用内存与磁盘存储训练前向阶段的激活值,减少了显存的占用,可以加载具有更多参数的模型。
"ramdom_seed": 1,
"use_amp": true, ## 是否开启混合精度训练,默认开启。
"use_sharding": true, ## 是否开启sharding,默认开启。可以将模型参数自动分配到多个显卡上,实现超大模型训练的关键分布式训练技术。
"save_inference_model": false, ## 是否开启训练时保存inference_model,默认关闭。注意:暂不支持开启sharding训练时保存inference_model,请使用checkpoints到inference_model的转化工具。
"use_fast_executor": true,
"train_log_step": 10,
"is_do_train": 1,
"is_eval_dev": 1, ## 是否开启dev集评估,默认开启
"is_eval_test": 1, ## 是否开启test集评估,默认开启
"eval_step": 500,
"save_model_step": 1000000000000, ## 保存模型时的间隔步数,建议设置为eval_step的整数倍。
"load_parameters": "", ## 加载包含各op参数值的训练好的模型,用于热启动。此处填写checkpoint路径。不填则表示不使用热启动
"load_checkpoint": "", ## 加载包含学习率等所有参数的训练模型,用于热启动。此处填写checkpoint路径。不填则表示不使用热启动。
"pre_train_model": [ ## 加载ERNIE 3.0 预训练模型
{
"name": "ernie_3.0_ch",
"params_path": "../../models_hub/ernie_3.0_ch_dir/params"
}
],
"output_path": "./output/cls_ernie_3.0_cmrc2018_ch" ## 保存模型的输出路径,若为空则默认。为"./output"
}
注:ERNIE3.0-1.5B可在单卡中运行,若采用单卡运行时use_sharding设为false,此时save_inference_model可设为true,即无需通过转化工具即可保存预测模型。
开始训练
- 模型均存放于wenxin_appzoo/wenxin_appzoo/models_hub文件夹下,进入文件夹执行下载脚本即可获得模型参数等。
cd wenxin_appzoo/wenxin_appzoo/models_hub
#进入文件夹执行sh download_ernie_3.0_ch.sh下载3.0模型参数,字典与推断所需环境。
sh download_ernie_3.0_ch.sh
#执行sh download_ernie_3.0_1.5b_ch.sh可下载ERNIE3.0-1.5B模型参数、字典和网络配置文件。
sh download_ernie_3.0_1.5b_ch.sh
- 进入指定任务的目录,阅读理解任务目录为wenxin_appzoo/wenxin_appzoo/tasks/reading_comprehension, 开始训练
cd wenxin_appzoo/wenxin_appzoo/tasks/reading_comprehension
# 使用ERNIE3.0百亿模型进行训练
fleetrun --log_dir log ./run_trainer.py --param_path "./examples/mrc_ernie_3.0_cmrc2018_ch.json" 1>log/lanch.log 2>&1
# 使用ERNIE3.0-1.5B模型进行训练
fleetrun --log_dir log ./run_trainer.py --param_path "./examples/mrc_ernie_1.5b_cmrc2018_ch.json" 1>log/lanch.log 2>&1
- 通过上述脚本调用json文件开启训练 (注意ERNIE3.0-1.5B单卡训练时也需fleetrun启动)。
- 训练阶段日志文件于log文件夹下,workerlog.N 保存了第N张卡的log日志内容,如遇到程序报错可以通过查看不同卡的workerlog.N定位到有效的报错信息。
- 训练模型保存于./output/cls_ernie_3.0_cmrc2018_ch文件夹下。
预测配置
预测分为两个阶段:
- 首先需要将训练过程中保存的checkpoints格式参数转成预测推理的inference_model参数格式
- 使用inference_model进行预测
checkpoints转化为inference_model
- 配置文件为mrc_ernie_3.0_cmrc2018_ch_save_infer_from_ckpt.json,需要注意的是trainer部分,其他部分与训练配置是一致的。
- 注:若ERNIE 3.0-1.5B单卡运行且保存了预测模型时,可跳过使用转化工具这个步骤,直接预测即可。
"trainer": {
"type" : "CustomTrainerErnie3",
"PADDLE_PLACE_TYPE": "cpu", ## 必须使用cpu保存
"PADDLE_IS_FLEET": 1,
"is_recompute": false,
"ramdom_seed": 1,
"use_amp": false,
"use_sharding": false,
"save_inference_model": true, ## 这里必须设置为True
"use_fast_executor": true,
"train_log_step": 10,
"is_do_train": 1,
"is_eval_dev": 0,
"is_eval_test": 0,
"eval_step": 500,
"save_model_step": 1000000000000,
"load_parameters": "", ## load_parameters中填入训练时保存的checkpoints的文件路径, 必需。
"load_checkpoint": "",
"pre_train_model": [
{
"name": "ernie_3.0_ch",
"params_path": "../../models_hub/ernie_3.0_ch_dir/params"
}
],
"output_path": "./output/cls_ernie_3.0_cmrc2018_ch"
使用inference_model进行预测
- 完成inference保存后,可以进行预测,预测配置文件如下: (examples/mrc_ernie_3.0_cmrc2018_ch_infer.json)
{
"dataset_reader": {
"predict_reader": {
"name": "predict_reader",
"type": "ErnieMRCReader",
"fields": [],
"config": {
"data_path": "./data/cmrc2018/predict",
"shuffle": false,
"batch_size": 1,
"epoch": 1,
"sampling_rate": 1.0,
"need_data_distribute": true,
"extra_params":{
"vocab_path":"../../models_hub/ernie_3.0_ch_dir/vocab.txt",
"label_map_config":"",
"max_seq_len":512,
"do_lower_case":true,
"in_tokens":false,
"tokenizer": "FullTokenizer",
"doc_stride": 128,
"max_query_length": 64
}
}
}
},
"inference": {
"type": "CustomMrcInferenceErnie3", ## Inference过程中使用的reader
"output_path": "./output/predict_result.txt", ## 保存结果的文件
"output_server_path": "./output/predict_result_server.txt", ## 在traning_server为true的情况下,保存server产出的结果。
"training_server": true,
"do_lower_case": true,
"max_answer_length": 100,
"n_best_size": 20,
"PADDLE_PLACE_TYPE": "gpu",
"turn_on_trt": true,
"use_cache": false,
"num_labels": 2,
"thread_num": 2,
"inference_model_path": "./output/cls_ernie_3.0_cmrc2018_ch/save_inference_model/inference_step_1", # 保存inference model的路径
"config_path": "../../models_hub/ernie_3.0_ch_dir/ernie_config.json",
"extra_param": {
"meta":{
"job_type": "reading_comprehension"
},
"max_seq_len": 512
}
}
}
开始预测
预测分为两个阶段:
- 首先需要将训练过程中保存的checkpoints格式参数转成预测推理的inference_model参数格式,
- 使用inference_model进行预测
checkpoint转化为inference model:
export CPU_NUM='1'
export CUDA_VISIBLE_DEVICES=0 # mask out other gpus for saving inference-model
fleetrun --log_dir log ./run_trainer.py --param_path "./examples/mrc_ernie_3.0_chid_ch_save_infer_from_ckpt.json" 1>log/lanch.log 2>&1
- 脚本耗时大约20分钟。
- 预测模型保存于./output/cls_ernie_3.0_cmrc2018_ch/save_inference_model路径下
使用inference_model进行预测:
-
ERNIE 3.0百亿模型预测:
BASE_PATH="../../models_hub/ernie_3.0_ch_dir/infer_env/" export CUDA_VISIBLE_DEVICES=0 # 屏蔽其它显卡 export PATH="${BASE_PATH}/py37/bin/:$PATH" export PYTHONPATH="${BASE_PATH}/py37/" # ERNIE 3.0百亿模型依赖TensorRT以fp16精度进行单卡预测,下面为所需的tensorRT库,以及对应的cuda和cuddn版本 export LD_LIBRARY_PATH=$BASE_PATH:${BASE_PATH}/cuda-11.0.3/lib64:${BASE_PATH}/cudnn-11.0-linux-x64-v8.0.5.39/lib64:${BASE_PATH}/TensorRT-7.2.1.6/lib:/home/opt/nvidia_lib:${BASE_PATH}/libs:$LD_LIBRARY_PATH export FLAGS_allocator_strategy=auto_growth # for inference,没有这一行会报显存溢出的错误 mkdir -p log fleetrun --log_dir log ./run_infer_ernie3.py.py --param_path "./examples/mrc_ernie_3.0_cmrc2018_ch_infer.json" 1>log/lanch.log 2>&1
-
ERNIE 3.0-1.5B模型预测
python ./run_infer_ernie3.py --param_path "./examples/mrc_ernie_1.5b_cmrc2018_ch_infer.json"
- 预测结果保存于./output/predict_result.txt中,如果训练过程中training_server保持开启,则会额外产生一个./output/predict_result_server.txt文件用于保存server的预测结果