训练与预测：序列标注

更新时间：2022-08-02

目录结构

序列标注任务位于wenxin_appzoo/tasks/sequence_labeling

├── data                                                                                    ## 示例数据文件夹，包括各任务所需的训练集、测试集、验证集和预测集
│   ├── dev_data
│   │   └── dev.txt
│   ├── predict_data
│   │   └── infer.txt
│   ├── test_data
│   │   └── test.txt
│   └── train_data
│       └── train.txt
│   ├── download_data.sh
├── examples                                                                            ## 各典型网络的json配置文件，infer后缀的为对应的预测配置文件
│   ├── seqlab_ernie_fc_ch.json
│   ├── seqlab_ernie_fc_ch_infer.json
│   ├── ...
├── inference                                                                            ## 模型预测代码
│   └── custom_inference.py                                                ## 序列标注任务通用的模型预测代码
├── model                                                                                    ## 序列标注任务相关的网络文件
│   ├── ernie_fc_sequence_label.py
├── run_infer.py                                                                    ## 依靠json进行模型预测的入口脚本
├── run_trainer.py                                                                ## 依靠json进行模型训练的入口脚本
└── trainer                                                                                ## 模型训练和评估代码
    ├── custom_dynamic_trainer.py                                    ## 动态库模式下的模型训练评估代码
    └── custom_trainer.py                                                    ## 静态图模式下的模型训练评估代码
└── dict                                                                                ## 模型训练和评估代码
    ├── vocab_label_map.txt                                    ## 序列标注的标签配置
    └── vocab.txt                                                    ## 词典

json配置文件

以序列标注任务./examples/seqlab_ernie_fc_ch.json和./examples/seqlab_ernie_fc_ch_infer.json为例

预置Reader配置

训练dataset_reader配置（./examples/seqlab_ernie_fc_ch.json）：

{
  "dataset_reader": {                                  
    "train_reader": {                                   ## 训练、验证、测试各自基于不同的数据集，数据格式也可能不一样，可以在json中配置不同的reader，此处为训练集的reader。
      "name": "train_reader",
      "type": "BasicDataSetReader",                     ## 采用BasicDataSetReader，其封装了常见的读取tsv文件、组batch等操作。
      "fields": [                                       ## 域（field）是文心的高阶封装，对于同一个样本存在不同域的时候，不同域有单独的数据类型（文本、数值、整型、浮点型）、单独的词表(vocabulary)等，可以根据不同域进行语义表示，如文本转id等操作，field_reader是实现这些操作的类。
        {
          "name": "text_a",                             ## 序列标注的文本特征域，命名为"text_a"。
          "data_type": "string",                        ## data_type定义域的数据类型，文本域的类型为string，整型数值为int，浮点型数值为float。
          "reader": {"type":"CustomTextFieldReader"},   ## 采用针对文本域的通用reader "CustomTextFieldReader"。数值数组类型域为"ScalarArrayFieldReader"，数值标量类型域为"ScalarFieldReader"。
          "tokenizer":{
              "type":"CustomTokenizer",                 ## 指定该文本域的tokenizer为CustomTokenizer。
              "split_char":" ",                         ## 通过空格区分不同的token。
              "unk_token":"[UNK]",                      ## unk标记为"[UNK]"。
              "params":null
            },
          "need_convert": true,                         ## "need_convert"为true说明数据格式是明文字符串，需要通过词表转换为id。
          "vocab_path": "../../models_hub/ernie_3.0_base_ch_dir/vocab.txt",             ## 指定该文本域的词表。
          "max_seq_len": 512,                           ## 设定每个域的最大长度。
          "truncation_type": 0,                         ## 选择截断策略，0为从头开始到最大长度截断，1为从头开始到max_len-1的位置截断，末尾补上最后一个id（词或字），2为保留头和尾两个位置，然后按从头开始到最大长度方式截断。
          "padding_id": 0                               ## 设定padding时对应的id值。
        },                                              ## 如果每一个样本有多个特征域（文本类型、数值类型均可），可以仿照前面对每个域进行设置，依次增加每个域的配置即可。此时样本的域之间是以\t分隔的。
        {
          "name": "label",                              ## 标签也是一个单独的域，命名为"label"。如果多个不同任务体系的标签存在于多个域中，则可实现最基本的多任务学习。
          "data_type": "string",                        ## 序列标注任务中，标签是文本类型。
          "reader":{"type":"CustomTextFieldReader"},
          "tokenizer":{
              "type":"CustomTokenizer",
              "split_char":" ",
              "unk_token":"O",
              "params":null
          },
          "need_convert": true,
          "vocab_path": "./dict/vocab_label_map.txt",   ## 配置标签的标注方式
          "max_seq_len": 512,
          "truncation_type": 0,
          "padding_id": 0
        }
      ],
      "config": {
        "data_path": "./data/train_data/",              ## 训练数据train_reader的数据路径，写到文件夹目录。
        "shuffle": false,
        "batch_size": 8,
        "epoch": 10,
        "sampling_rate": 1.0
        "need_data_distribute": true,        ## 表示数据读取过程中是否需要按卡数进行分发，true表示每张卡在同一个step中读取到的数据是不一样的，false表示每张卡在同一个step中读取到的数据是一样的，训练集默认为true，测试集、验证集、预测集都是false。
        "need_generate_examples": false        ## 表示在数据读取过程中除了id化好的tensor数据外，是否需要返回原始明文样本。
      }
    },
    ……
  },
  ……
}

预测的dataset_reader配置（./examples/seqlab_ernie_fc_ch_infer.json）

{
  "predict_reader": {        ## 预测推理时须配置predict_reader，其配置方式与train_reader类似，需要注意的是，提供的示例无label域，因此predict_reader无需配置label域，强烈建议shuffle参数设置为false，epoch参数设置为1。
      "name": "predict_reader",
      "type": "ErnieClassificationDataSetReader",
      "fields": [
        {
          "name": "text_a",
          ......
        },
        {
          "name": "text_b",
          ......
      ],
      "config": {
        "data_path": "./data/predict_data",        ## 预测数据的数据路径，路径为文件夹目录。
        "shuffle": false,
        "batch_size": 8,
        "epoch": 1,
        "sampling_rate": 1.0,
        "need_data_distribute": false,
        "need_generate_examples": true
      }
    }
}

model配置

用于配置模型训练时的预置网络，包括预置网络的类别及其优化器的参数等（./examples/seqlab_ernie_fc_ch.json）
ERNIE模型的model配置

Ernie任务的model部分和非Ernie任务基本上一致，区别在于optimization（优化器）部分的参数配置了更多信息和增加了ERNIE中的embedding参数设置。以./examples/seqlab_ernie_fc_ch.json中的model部分为例说明。

"model": {
  "type": "ErnieFcSeqLabel",        ## 使用的模型网络类。
    "is_dygraph": 0,
    "optimization": {                                            ## 优化器设置，建议使用文心ERNIE推荐的默认设置。
      "learning_rate": 5e-05,
      "use_lr_decay": true,
      "warmup_steps": 0,
      "warmup_proportion": 0.1,
      "weight_decay": 0.01,
      "use_dynamic_loss_scaling": false,
      "init_loss_scaling": 128,
      "incr_every_n_steps": 100,
      "decr_every_n_nan_or_inf": 2,
      "incr_ratio": 2.0,
      "decr_ratio": 0.8
    },
    "embedding": {                                                ## ERNIE中的embedding参数设置，必填参数。
      "config_path": "../../models_hub/ernie_3.0_base_ch_dir/ernie_config.json"        ## 当前ERNIE模型的配置文件，请填入所采用的ERNIE预训练模型对应的模型配置文件。
    }
}

trainer

用于配置模型训练的启动器，包括保存模型时的间隔步数、进行测试集或验证集评估的间隔步数等。以下为/examples/mtch_ernie_fc_pointwise_ch.json中抽取出来的trainer部分配置，并通过注释说明。

"trainer": {
  "type": "CustomTrainer",        ## 表示使用的trainer对应的类名，注意要区分静态图（CustomTrainer）和动态图(CustomDynamicTrainer)。
  "PADDLE_PLACE_TYPE": "gpu",                ## 表示运行时的设备类别，取值为cpu和gpu。
  "PADDLE_IS_FLEET": 0,                            ## 表示是否使用fleetrun模式进行训练，gpu多卡情况下必须设置为1，并使用fleetrun命令进行训练。
  "train_log_step": 10,                            ## 训练时打印训练日志的间隔步数。
  "use_amp": true,                                    ## 是否开启混合精度模式的训练。
  "is_eval_dev": 0,                                    ## 是否在训练的时候评估验证集，1为需评估，此时必须配置dev_reader。
  "is_eval_test": 1,                                ## 是否在训练的时候评估测试集，1为需评估，此时必须配置test_reader。
  "eval_step": 100,                                    ## 进行测试集或验证集评估的间隔步数。
  "save_model_step": 200,                        ## 保存模型时的间隔步数，建议设置为eval_step的整数倍。
  "load_parameters": "",                        ## 加载已训练好的模型的op参数值，不会加载训练步数、学习率等训练参数，可用于加载预训练模型。如需使用填写具体文件夹路径即可。
  "load_checkpoint": "",                        ## 加载已训练好的模型的所有参数，包括学习率等，可用于热启动。如需使用填写具体文件夹路径即可。
  "pre_train_model": [                            ## 加载预训练模型，ERNIE任务的必填参数，非ERNIE任务置为[]即可。
    {
      "name": "ernie_3.0_base_ch",    ## 预训练模型的名称。
      "params_path": "../../models_hub/ernie_3.0_base_ch_dir/params"        ## 预训练模型的参数目录。
    }
  ],
  "output_path": "./output/mtch_ernie_3.0_base_fc_pointwise_ch",                ## 保存模型的输出路径，若为空则默认。为"./output"
  "extra_param": {"meta":{"job_type": "sequence_labeling"}                                    ## 额外的参数信息。
}

inference

用于配置模型预测推理的启动器，包括待预测模型路径、结果输出等参数，以下为/examples/mtch_ernie_fc_pointwise_ch_infer.json中抽取出来的inference部分配置，并通过注释说明。

"inference": {
  "output_path": "./output/predict_result.txt",    ## 预测结果的输出路径，若为空则默认输出路径为"./output/predict_result.txt"
  "PADDLE_PLACE_TYPE": "gpu",        ## 表示运行时的设备类别，取值为cpu和gpu。
  "thread_num": 1,        ## 预测过程中设置的进程数。
  "inference_model_path": "./output/seqlab_ernie_3.0_base_fc_ch/save_inference_model/inference_step_601",        ## 待预测的模型路径。
  ......
}

开始训练

若要训练ERNIE任务，需下载对应的ERNIE预训练模型，例如：

# ernie_3.0_base模型下载
# 进入models_hub目录
cd ./wenxin_appzoo/models_hub/
# 运行下载脚本
sh download_ernie_3.0_base_ch.sh

模型训练的入口脚本为run_trainer.py ，通过—param_path参数来传入./examples/目录下的json配置文件。例如：

python run_trainer.py --param_path ./examples/seqlab_ernie_fc_ch.json

训练运行的日志会自动保存在./log/test.log文件中。

训练中以及结束后产生的模型文件会保存在json配置文件中的output_path字段值的目录下，其中save_inference_model文件夹会保存用于预测的模型文件，save_checkpoint文件夹会保存用于热启动的模型文件。

开始预测

如您使用镜像开发套件，您可直接进入下一步骤。如您将文心开发套件与本地已有的开发环境相结合，您需要在./env.sh中配置对应的环境变量，并执行source env.sh ，如需了解更多详情，请参考环境配置。
选定配置好的json文件，把你将要预测的模型对应的inference_model文件路径填入json文件的inference_model_path变量中。
模型训练的入口脚本为run_infer.py ，通过—param_path参数来传入./examples/目录下的json配置文件。例如：

python run_infer.py --param_path ./examples/seqlab_ernie_fc_ch_infer.json

预测运行的日志会自动保存在json配置文件中的output_path字段值的文件中。

准备工作：序列标注

使用ERNIE3.0百亿 & 15亿模型训练和预测：序列标注