使用ERNIE预训练模型
数据准备
在使用Ernie预训练模型前需要准备相关任务的数据;这里以文本分类任务为例。数据集不需要分词且无需准备词表,其格式与非ERNIE的数据集相同,如下所示:
选择珠江花园的原因就是方便,有电动扶梯直接到达海边,周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般,但还算整洁。 1 15.4寸笔记本的键盘确实爽,基本跟台式机差不多了,蛮喜欢数字小键盘,输数字特方便,样子也很美观,做工也相当不错 1 房间太小。其他的都一般。。。。。。。。。 0
JSON配置
这里以基于Ernie-base-1.0预训练模型,下游网络使用CNN进行文本分类的任务为例。首先进入tasks/text_classification/examples目录下,打开cls_ernie_1.0_base_cnn_ch.json,
{
"dataset_reader": {
"train_reader": { ## 训练、验证、测试各自基于不同的数据集,数据格式也可能不一样,可以在json中配置不同的reader,此处为训练集的reader。
"name": "train_reader",
"type": "BasicDataSetReader", ## 采用BasicDataSetReader,其封装了常见的读取tsv文件、组batch等操作。
"fields": [ ## 域(field)是TextOne的高阶封装,对于同一个样本存在不同域的时候,不同域有单独的数据类型(文本、数值、整型、浮点型)、单独的词表(vocabulary)等,可以根据不同域进行语义表示,如文本转id等操作,field_reader是实现这些操作的类。
{
"name": "text_a", ## 文本分类只有一个文本特征域,命名为"text_a"。
"data_type": "string", ## data_type定义域的数据类型,文本域的类型为string,整型数值为int,浮点型数值为float。
"reader": {"type":"ErnieTextFieldReader"}, ## 采用针对Ernie文本域的通用reader "ErnieTextFieldReader"。数值数组类型域为"ScalarArrayFieldReader",数值标量类型域为"ScalarFieldReader"。
"tokenizer":{
"type":"FullTokenizer", ## FullTokenizer。
"split_char":" ", ## 通过空格区分不同的token。
"unk_token":"[UNK]", ## unk标记为"[UNK]"。
"params":null
},
"need_convert": true, ## "need_convert"为true说明数据格式是明文字符串,需要通过词表转换为id。
"vocab_path": "./dict/vocab.txt", ## 指定该文本域的词表。
"max_seq_len": 512, ## 设定每个域的最大长度。
"truncation_type": 0, ## 选择截断策略,0为从头开始到最大长度截断,1为从头开始到max_len-1的位置截断,末尾补上最后一个id(词或字),2为保留头和尾两个位置,然后按从头开始到最大长度方式截断。
"padding_id": 0 ## 设定padding时对应的id值。
}, ## 如果每一个样本有多个特征域(文本类型、数值类型均可),可以仿照前面对每个域进行设置,依次增加每个域的配置即可。此时样本的域之间是以\t分隔的。
{
"name": "label", ## 标签也是一个单独的域,命名为"label"。如果多个不同任务体系的标签存在于多个域中,则可实现最基本的多任务学习。
"data_type": "int", ## 标签是整型数值。
"reader":{
"type":"ScalarFieldReader" ## 整型数值域的reader为"ScalarFieldReader"。
},
"tokenizer":null,
"need_convert": false,
"vocab_path": "",
"max_seq_len": 1,
"truncation_type": 0,
"padding_id": 0,
"embedding": null
}
],
"config": {
"data_path": "./data/train_data/", ## 训练数据train_reader的数据路径,写到文件夹目录。
"shuffle": false,
"batch_size": 8,
"epoch": 10,
"sampling_rate": 1.0
}
},
"test_reader": { ## 若要评估测试集,需配置test_reader,其配置方式与train_reader类似。
……
},
"dev_reader": { ## 若要评估验证集,需配置dev_reader,其配置方式与test_reader类似。
……
}
},
……
}(1) 数据路径配置
在['dataset_reader']下的各个reader中['config']中配置相关数据的路径;以下为./examples/cls_ernie_1.0_base_cnn_ch.json中抽取出来的train_reader的部分配置,并通过注释说明。
"train_reader": {
"name": "train_reader",
"type": "BasicDataSetReader",
......
"config": {
"data_path": "./data/train_data",
"shuffle": false,
"batch_size": 8,
"epoch": 5,
"sampling_rate": 1.0
}(2) 模型选择
model用于配置模型训练时的预置网络,包括预置网络的类别及其优化器的参数等。
以下为./examples/cls_ernie_1.0_base_cnn_ch.json中抽取出来的model部分配置,并通过注释说明。
"model": {
"type": "ErnieCnnClassification",
"optimization": {
"learning_rate": 5e-05,
"lr_scheduler": "linear_warmup_decay",
"warmup_steps": 0,
"warmup_proportion": 0.1,
"weight_decay": 0.01,
"use_dynamic_loss_scaling": false,
"init_loss_scaling": 128,
"incr_every_n_steps": 100,
"decr_every_n_nan_or_inf": 2,
"incr_ratio": 2.0,
"decr_ratio": 0.8
},
"embedding": {
"type": "ErnieTokenEmbedding",
"emb_dim": 768,
"use_fp16": false,
"config_path": "../model_files/config/ernie_1.0_base_ch_config.json",
"other": ""
},
"num_labels": 2
},(3) trainer部分
trainer用于配置模型训练的启动器,包括保存模型时的间隔步数、进行测试集或验证集评估的间隔步数等。
以下为./examples/cls_ernie_1.0_base_cnn_ch.json中抽取出来的trainer部分配置,并通过注释说明。
"trainer": {
"PADDLE_USE_GPU": 1,
"PADDLE_IS_LOCAL": 1,
"train_log_step": 10,
"is_eval_dev": 0,
"is_eval_test": 1,
"eval_step": 100,
"save_model_step": 10000,
"load_parameters": 0,
"load_checkpoint": 0,
"use_fp16": 0,
"pre_train_model": [
{
"name": "ernie_1.0_base_ch",
"params_path": "../model_files/ernie_1.0_base_ch_dir/params"
}
],
"output_path": "./output/cls_ernie_1.0_base_cnn_ch",
"extra_param": {
"meta":{
"job_type": "text_classification"
}
}
}(4) 预训练模型配置注意事项 其中json中的配置需要注意以下几点:
- 文本域的选择(reader的type值):由于Ernie模型需要文本域的输入包含
token_id、position_id、sentence_id、sequence_len、task_id等信息,因此只能选择ErnieTextFieldReader; - 分词组件的选择:Ernie预训练模型在做文本分类或者文本匹配等任务时,可以选择
FullTokenizer,FullTokenizer会对输入的文本中的中文进行切字,非中文的文本做subword,即更细粒度的切词;如果做序列标注相关任务时,由于输入的文本域和标签域一般是序列对应的,因此无需进行分词,这时应该选择CustomTokenizer;而在使用Ernie Tiny预训练模型时,由于Ernie Tiny是基于词的,因此需要对输入的文本进行分词,此时应该选择WSSPTokenizer分词组件; - 词表的选择(vocab_path):使用Ernie预训练模型进行下游任务的
Finetuning或者持续Posttrain时,必须使用该预训练模型对应的词表,否则会导致词向量矩阵shape以及token的embedding对不上,影响最终的模型效果; - 配置文件选择:由于不同版本的Ernie预训练模型在模型结构、大小等方便存在差异,必须使用该预训练对应的
config文件,并在json内配置到['model']['embedding']['config_path']内;比如这里是:../model_files/config/ernie_1.0_base_ch_config.json; - 预训练模型路径配置:需要把预训练模型
params文件夹所在的路径配置到['trainer']['pre_train_model']中;
训练模型
与非ERNIE的训练方式相同,使用预置网络进行训练的方式为使用./run_with_json.py入口脚本,通过--param_path参数来传入./examples/目录下ernie相关的json配置文件。
以预置基于ernie_1.0_base的CNN文本分类模型为例,训练分为以下几个步骤:
- 请使用以下命令在
../model_files/中通过对应脚本下载ernie_1.0_base模型参数文件,其对应配置文件ernie_1.0_base_ch_config.json和词表vocab_ernie_1.0_base_ch.txt分别位于../model_files/目录下的config/和dict/文件夹,用户无需更改;
# ernie_1.0_base 模型下载
# 进入model_files目录
cd ../model_files/
# 运行下载脚本
sh download_ernie_1.0_base_ch.sh- 请准备数据集并放入对应目录中,ERNIE训练所需数据集不需要分词且无需准备词表,其格式与非ERNIE的数据集相同;
"inference": {
"output_path": "./output/predict_result.txt",
"inference_model_path": "./output/cls_ernie_1.0_base_cnn_ch/save_inference_model/inference_step_10",
"PADDLE_USE_GPU": 1,
"PADDLE_IS_LOCAL": 1,
"num_labels": 2,
"extra_param": {
"meta":{
"job_type": "text_classification"
}
}
}- 运行以下命令在训练集(train.txt)上进行模型训练,并在测试集(test.txt)上进行验证;
python run_with_json.py --param_path ./examples/cls_ernie_1.0_base_cnn_ch.json- 训练运行的日志会自动保存在
./log/test.log文件中;
模型预测
使用预置网络进行预测的方式为使用./run_infer.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。 以基于预置CNN网络所训练出的模型为例,其预测分为以下几个步骤:
- 基于
./examples/cls_ernie_1.0_base_cnn_ch_infer.json训练出的模型默认储存在./output/cls_ernie_1.0_base_cnn_ch/save_inference_model/inference_step_10_enc中,在该目录下找到被保存的inference_model文件夹,例如inference_step_10_enc/; - 在
./examples/cls_ernie_1.0_base_cnn_ch_infer.json中修改"inference_model_path"参数,填入上述模型保存路径,如下所示: - 基于示例的数据集,可以运行以下命令在预测集(infer.txt)上进行预测:
python run_infer.py --param_path ./examples/cls_ernie_1.0_base_cnn_ch_infer.json - 预测运行的日志会自动保存在./output/predict_result.txt文件中。
切换Ernie预训练模型
如果想使用其他版本的Ernie预训练模型进行CNN任务的文本分类,只需要修改json配置即可,需要重点关注【JSON配置】小结中的【(4) 预训练模型配置注意事项】,针对词典、文本域、tokenizer、config配置、预训练路径等进行相应修改即可,模型训练和预测的方式与上文描述的一致。
