开始训练与预测
更新时间:2022-07-05
开始训练&预测(分类任务)
环境安装
目录结构
文本分类任务位于/wenxin_appzoo/tasks/text_classification
── data ## 各种demo数据集
│ ├── dev_data
│ │ └── dev_1.txt
│ ├── dict
│ │ └── vocab.txt
│ ├── download_data.sh
│ ├── multi_label_data ## 多标签分类demo数据集
│ │ ├── dev_data
│ │ │ └── dev.txt
│ │ ├── test_data
│ │ │ └── test.txt
│ │ └── train_data
│ │ └── train.txt
│ ├── predict_data
│ │ └── infer.txt
│ ├── test_data
│ │ └── test.txt
│ ├── train_data
│ │ └── train.txt
│ └── xnli ## xnli数据集,ERNIE3.0的demo数据
│ ├── dev
│ │ └── dev.tsv
│ ├── test
│ │ └── test.tsv
│ └── train
│ └── train.tsv
├── data_set_reader ## 数据读取器
│ ├── ernie_classification_base_dataset_reader.py
│ └── ernie_classification_dataset_reader.py
├── examples ## 内置的常用任务配置
│ ├── cls_bow_ch_infer.json
│ ├── cls_bow_ch.json
│ ├── cls_ernie_3.0_xnli_ch_infer.json
│ ├── cls_ernie_3.0_xnli_ch.json
│ ├── cls_ernie_3.0_xnli_ch_save_infer_from_ckpt.json
│ ├── cls_ernie_fc_ch_infer.json
│ ├── cls_ernie_fc_ch.json
│ ├── cls_ernie_multi_label_ch_infer.json
│ └── cls_ernie_multi_label_ch.json
├── inference ## 模型预测脚本
│ ├── custom_cls_inference_ernie3.py
│ ├── custom_inference.py
│ └── __init__.py
├── model ## 内置网络结构
│ ├── base_cls.py
│ ├── bow_classification.py ## BOW网络结构
│ ├── ernie3_classification.py ## ERNIE3.0在分类任务上的网络结构
│ ├── ernie_classification.py ## ERNIE2.x在分类任务上的网络结构
│ └── multi_label_classification.py ## 多标签分类任务的网络结构
├── reader
│ ├── categorical_field_reader.py
│ └── multi_label_field_reader.py
├── run_infer_ernie3.py
├── run_infer.py
├── run_trainer.py
└── trainer
├── custom_dynamic_trainer.py ## ERNIE 2.X任务和非ERNIE任务的动态图训练脚本
├── custom_trainer_ernie3.py ## ERNIE 3.0任务的静态图训练脚本(ERNIE3.0目前仅支持静态图训练)
├── custom_trainer.py ## ERNIE 2.X任务和非ERNIE任务的静态图训练脚本
└── __init__.py
准备数据
选择ERNIE模型
参数配置
文心中的各种参数都是在json文件中进行配置的,您可以通过修改所加载的json文件来进行参数的自定义配置。json配置文件主要分为三个部分:dataset_reader(数据部分)、model(网络部分)、trainer或inference(执行部分),在模型训练的时候,json文件中需要配置dataset_reader、model和trainer这三个部分;在预测推理的时候,json文件中需要配置dataset_reader、inference这两个部分。这里以./examples/cls_bow_ch.json为例,上述三个部分的配置与说明如下所示。
-
dataset_reader
用于配置模型训练或者预测时的数据相关配置,训练任务的dataset_reader中必须有train_reader、test_reader、dev_reader,预测推理任务的dataset_reader仅需要predict_reader。
{
"dataset_reader": {
"train_reader": { ## 训练、验证、测试各自基于不同的数据集,数据格式也可能不一样,可以在json中配置不同的reader,此处为训练集的reader。
"name": "train_reader",
"type": "BasicDataSetReader", ## 采用BasicDataSetReader,其封装了常见的读取tsv、txt文件、组batch等操作。
"fields": [ ## 域(field)是文心的高阶封装,对于同一个样本存在不同域的时候,不同域有单独的数据类型(文本、数值、整型、浮点型)、单独的词表(vocabulary)等,可以根据不同域进行语义表示,如文本转id等操作,field_reader是实现这些操作的类。
{
"name": "text_a", ## 文本分类只有一个文本特征域,命名为"text_a"。
"data_type": "string", ## data_type定义域的数据类型,文本域的类型为string,整型数值为int,浮点型数值为float。
"reader": {
"type": "CustomTextFieldReader" ## 采用针对文本域的通用reader "CustomTextFieldReader"。数值数组类型域为"ScalarArrayFieldReader",数值标量类型域为"ScalarFieldReader",这里的取值是对应FieldReader的类名,关于各个FieldReader的区别详见http://wiki.baidu.com/display/TOne/6.Reader
},
"tokenizer": {
"type": "CustomTokenizer", ## 指定该文本域的tokenizer为CustomTokenizer,type的取值是对应Tokenizer的类名,关于各个Tokenizer的区别详见http://wiki.baidu.com/display/TOne/6.Reader
"split_char": " ", ## 非Ernie任务需要自己切词,切词之后的明文使用的分隔符在这里设置,默认是通过空格区分不同的token。
"unk_token": "[UNK]", ## unk标记为"[UNK]", 即词表之外的token所对应的默认id,unk必须是词表文件中存在的token。
"params": null ## 如果需要一些额外的参数传入tokenizer的时候可以使用该字段
},
"need_convert": true, ## "need_convert"为true说明数据格式是明文字符串,需要通过词表转换为id。
"vocab_path": "./dict/vocab.txt", ## 指定该文本域的词表,"need_convert"为true时一定要设置
"max_seq_len": 512, ## 设定当前域转为id之后的最大长度
"truncation_type": 0, ## 选择文本超长截断的策略,0为从头开始到最大长度截断,1为从头开始到max_len-1的位置截断,末尾补上最后一个id(词或字),2为保留头和尾两个位置,然后按从头开始到最大长度方式截断。
"padding_id": 0 ## 设定padding时对应的id值,文心内部会按batch中的最长文本大小对整个batch中的数据进行padding补齐。
}, ## 如果每一个样本有多个特征域(文本类型、数值类型均可),可以仿照前面对每个域进行设置,依次增加每个域的配置即可。此时样本的域之间是以\t分隔的。
{
"name": "label", ## 标签也是一个单独的域,在当前例子中命名为"label"。如果多个不同任务体系的标签存在于多个域中,则可实现最基本的多任务学习。
"data_type": "int", ## 标签是整型数值。
"reader": {
"type": "ScalarFieldReader" ## 整型数值域的reader为"ScalarFieldReader"。
},
"tokenizer": null, ## 如果你的label是明文文本,且需要分词的话,这里就需要配置对应的tokenizer,规则如上方文本域的tokenizer配置
"need_convert": false, ## "need_convert"为true说明数据格式是明文字符串,需要通过词表转换为id。
"vocab_path": "", ## ”need_convert“为true的时候需要填词表路径 。
"max_seq_len": 1, ## 设定每个域的最大长度,当前例子中的label域是一个int数值,所以最大长度是1。
"truncation_type": 0, ## 超过max_seq_len长度之后的截断策略,同上。
"padding_id": 0, ## 设定padding时对应的id值。
"embedding": null ## 历史遗留参数,设置为null即可。
}
],
"config": {
"data_path": "./data/train_data", ## 训练数据train_reader的数据路径,写到文件夹目录。
"shuffle": false, ## 数据在读取过程中是否需要打乱顺序。
"batch_size": 8, ## 超参数之一,表示每个step训练多少个样本。
"epoch": 10, ## 超参数之一,表示这个数据集中的数据会被重复训练多少轮。
"sampling_rate": 1.0, ## 数据集的采样率,文心预留参数,暂时不起作用,后续版本会升级。
"need_data_distribute": true, ## 表示数据读取过程中是否需要按卡数进行分发,true表示每张卡在同一个step中读取到的数据是不一样的,false表示每张卡在同一个step中读取到的数据是一样的,训练集默认为true,测试集、验证集、预测集都是false。
"need_generate_examples": false, ## 表示在数据读取过程中除了id化好的tensor数据外,是否需要返回原始明文样本,测试集默认取值为true,训练集、测试集、验证集为false
"key_tag": false ## ERNIE网络需要设置为true,非ERNIE网络需要设置为false
}
},
"test_reader": { ## 若要评估测试集,需配置test_reader,其配置方式与train_reader类似, 需要注意的是shuffle参数要设置为false,epoch参数必须是1。
……
},
"dev_reader": { ## 若要评估验证集,需配置dev_reader,其配置方式与test_reader类似,需要注意的是shuffle参数要设置为false,epoch参数必须是1。
……
},
"predict_reader": { ## 如果是预测推理,则必须配置predict_reader,其配置方式与train_reader、test_reader类似,需要注意的是predict_reader不需要label域,shuffle参数必须是false,epoch参数必须是1。
"name": "predict_reader",
"type": "BasicDataSetReader",
"fields": [
{
"name": "text_a",
"data_type": "string",
"reader": {
"type": "CustomTextFieldReader"
},
"tokenizer": {
"type": "CustomTokenizer",
"split_char": " ",
"unk_token": "[UNK]",
"params": null
},
"need_convert": true,
"vocab_path": "./dict/vocab.txt",
"max_seq_len": 512,
"truncation_type": 0,
"padding_id": 0,
"embedding": null
}
],
"config": {
"data_path": "./data/predict_data",
"shuffle": false, ## 注意!这里的参数必须关掉,打乱顺序输出之后不方便比对数据看结果
"batch_size": 8,
"epoch": 1, ## 注意!这里的epoch要设置为1,重复多次预测没意义。
"sampling_rate": 1.0,
"need_data_distribute": true,
"need_generate_examples": false,
"key_tag": false
}
……
}
- model:用于配置模型训练时的预置网络,包括预置网络的类别及其优化器的参数等,以下为./examples/cls_bow_ch.json中抽取出来的model部分配置,并通过注释说明。
{
...
"model": {
"type": "BowClassification", ## 文心采用模型(models)的方式定义神经网络的基本操作,本例采用预置的模型BowClassification实现文本分类,具体网络可参考models目录。
"is_dygraph": 1, ## 区分动态图模型和静态图模型,1表示动态图,0表示静态图
"optimization": {
"learning_rate": 2e-05 ## 预置模型的优化器所需的参数配置,如学习率等。
},
"vocab_size": 33261, ## 该模型(model)使用的词表大小,必填参数。
"num_labels": 2 ## 该分类模型的类别数目是多少,必填参数,不填则默认是二分类
},
...
}
Ernie任务的model部分和非Ernie任务基本上一致,区别在于optimization(优化器)部分的参数配置了更多信息。以./examples/cls_ernie_fc_ch.json中的model部分为例说明。
{
... ## 配置情况大体上与上述的非ERNIE BOW模型一致,仅标注不同的地方
"model": {
"type": "ErnieClassification", ## 对应的模型网络类名为
"is_dygraph": 1,
"optimization": { ## 优化器设置,文心ERNIE推荐的默认设置。
"learning_rate": 5e-05,
"use_lr_decay": true,
"warmup_steps": 0,
"warmup_proportion": 0.1,
"weight_decay": 0.01,
"use_dynamic_loss_scaling": false,
"init_loss_scaling": 128,
"incr_every_n_steps": 100,
"decr_every_n_nan_or_inf": 2,
"incr_ratio": 2.0,
"decr_ratio": 0.8
},
"embedding": { ## ERNIE中的embedding参数设置,必填参数。
"type": "ErnieTokenEmbedding", ## embedding类型,务必设置为ErnieTokenEmbedding
"emb_dim": 768, ## 当前ERNIE模型的词向量维度,不同版本ERNIE维度不同,具体数值参考对应的config.json中的emb_size参数。
"config_path": "../model_files/config/ernie_2.0_base_ch_config.json", ## 当前ERNIE模型的配置文件,下载需要的ERNIE模型压缩包即可看到。
"other": "" ## 预留字段,用来传递一些额外信息。
},
"num_labels": 2
},
...
}
-
trainer:用于配置模型训练的启动器,包括保存模型时的间隔步数、进行测试集或验证集评估的间隔步数等。以下为/examples/cls_ernie_2.0_base_fc_ch.json中抽取出来的trainer部分配置,并通过注释说明。
{ ... "trainer": { "PADDLE_USE_GPU": 0, ## 是否使用GPU进行训练,1为使用GPU,同上。 "PADDLE_IS_LOCAL": 1, ## 是否单机训练,默认值为0,若要单机训练需要设置为1,同上。 "train_log_step": 20, ## 训练时打印训练日志的间隔步数,同上。 "is_eval_dev": 0, ## 是否在训练的时候评估开发集,如果取值为1,则一定需要配置dev_reader及其数据路径,同上。 "is_eval_test": 1, ## 是否在训练的时候评估测试集,如果取值为1,则一定需要配置test_reader及其数据路径,同上。 "eval_step": 100, ## 进行测试集或验证集评估的间隔步数,同上。 "save_model_step": 10000, ## 保存模型时的间隔步数,建议设置为eval_step的整数倍,同上。 "load_parameters": "", ## 加载包含各op参数值的训练好的模型,用于热启动。此处填写checkpoint路径。不填则表示不使用热启动,同上。 "load_checkpoint": "", ## 加载包含学习率等所有参数的训练模型,用于热启动。此处填写checkpoint路径。不填则表示不使用热启动,同上。 "use_fp16": 0, ## 是否使用fp16精度(半精度),预留参数,请设置为0(文心目前对fp16精度的支持还在更新中,敬请关注),同上。 "pre_train_model": [ ## 加载预训练模型,ERNIE任务的必填参数,非ERNIE任务将当前参数置为[]即可。 { "name": "ernie_2.0_base_ch", ## 预训练模型的名称name "params_path": "../model_files/ernie_2.0_base_ch_dir/params" ## 预训练模型的目录params_path } ], "output_path": "./output/cls_cnn_ch" ## 保存模型的输出路径,如置空或者不配置则默认输出路径为"./output",同上。 "extra_param": { ## 除核心必要信息之外,需要额外标明的参数信息,比如一些meta信息可以作为日志统计的关键字,同上。 "meta":{ "job_type": "text_classification" } } } }
- inference:用于配置模型预测推理的启动器,包括待预测模型路径、结果输出等参数。
{
...
"inference": {
"output_path": "./output/predict_result.txt", ## 预测结果的输出路径,如果不填则默认输出路径为"./output/predict_result.txt"
"PADDLE_PLACE_TYPE": "cpu",
"num_labels": 2, ## 必填参数,表示分类模型的类别数目是多少,预测结果解析时会用到
"inference_model_path": "./output/cls_bow_ch/save_inference_model/inference_step_251", ## 待预测模型的路径
"extra_param": { ## 同trainer,除核心必要信息之外,需要额外标明的参数信息,比如一些meta信息可以作为日志统计的关键字。
"meta":{
"job_type": "text_classification"
}
}
}
开始训练
- 如您使用镜像开发套件,您可直接进入下一步骤。如您将文心开发套件与本地已有的开发环境相结合,您需要在./env.sh中配置对应的环境变量,并执行source env.sh ,如需了解更多详情,请参考环境配置。
- 模型训练的入口脚本为./run_trainer.py , 通过—param_path参数来传入./examples/目录下的json配置文件。例如:python run_trainer.py --param_path ./examples/cls_bow_ch.json
- 训练运行的日志会自动保存在./log/test.log文件中.
- 训练中以及结束后产生的模型文件会默认保存在./output/cls_bow_ch/目录下,其中save_inference_model/文件夹会保存用于预测的模型文件,save_checkpoint/文件夹会保存用于热启动的模型文件。
开始预测
- 如您使用镜像开发套件,您可直接进入下一步骤。如您将文心开发套件与本地已有的开发环境相结合,您需要在./env.sh中配置对应的环境变量,并执行source env.sh ,如需了解更多详情,请参考环境配置。
- 选定配置好的json文件,把你将要预测的模型对应的inference_model文件路径填入json文件的“inference_model_path”变量中。
- 模型训练的入口脚本为./run_infer.py , 通过—param_path参数来传入./examples/目录下的json配置文件。例如:python run_infer.py --param_path ./examples/cls_bow_ch_infer.json
- 预测运行的日志会自动保存在./output/predict_result.txt文件中。