进阶任务：Prompt tuning文本分类

更新时间：2022-12-17

任务简介

近年来，Pretain+Finetuning的训练方式已广泛流行在NLP领域，近期来出现了新的训练方式——Prompt Learning， Prompt Learning是指对输入文本信息按照特定模板进行处理，把任务重构成一个更能充分利用预训练语言模型处理的形式。

Prompt Learning的做法可由Prompt的构造方式分为以下几种方式：

Hand-crafted，人工模板构造Prompt的方式，需要人工的参与，而且不同的Prompt的构造方式模型的效果差距较大，模型效果不稳定。
Automate prompt design (离散)，该部分工作提出自动Prompt的构造方式，根据任务搜索合适的prompt的token。但因为这些token仍是具体的文字，从深度学习的角度来说，这种方式的效果是次优的。
Prompt tuning，采用的是连续的Prompt向量，认为参数化的Prompt相对离散的Prompt形式具有更强的表达能力，不关注Prompt的自然语言性，其模型效果更优。

文心ERNIE分类任务接入Prompt tuning的训练方式，用户可根据自己的任务需求只需要简单更改json配置即可。我们在FewCLUE的文本分类任务中进行了效果评测：

	eprstmt	tnews	csldcp	iflytek
Finetune	82.438%	53.75%	55.687%	47.058%
Prompt tuning	85.2464%	54.328%	56.0476%	48.0868%

数据集样本量：

	Train	Test
eprstmt	32	610
tnews	240	2010
csldcp	536	1784
iflytek	928	2279

（⚠️注意：eprstmt:电商评论情感分析；tnews:新闻分类；csldcp：科学文献学科分类；iflytek:APP应用描述主题分类，其中tnews、csldcp、iflytek三个数据集难度较大分类类别较多，所以准确率相对较低）

准备数据

示例数据位于text_classification/data/fewclue/eprstmt

.
├── dict	# label词表文件
│   └── label_map.txt
├── predict_data	# 预测数据
│   └── test.txt
├── test_public	# 测试数据
│   └── test_public.txt
└── train_1	# 训练数据
    └── train_1.txt

其中训练、测试、预测数据集可参考正常的文本分类数据集格式：数据准备

需要用户额外准备一份label的词表文件，为语言模型待预测的mask处的值，用\t分割，要求字数一致，如：

差	0
好	1

故事	0
文化	1
娱乐	2
体育	3
财经	4

模型准备

模型均存放于wenxin_appzoo/wenxin_appzoo/models_hub文件夹下，进入文件夹执行sh download_ernie_3.0_base_ch.sh下载预训练模型参数，字典，模型配置文件。

训练参数配置

文心中的各种参数都是在json文件中进行配置的，你可以通过修改所加载的json文件来进行参数的自定义配置。json配置文件主要分为三个部分：dataset_reader（数据部分）、model（网络部分）、trainer（训练任务）或inference（预测部分），在模型训练的时候，json文件中需要配置dataset_reader、model和trainer这三个部分；在预测推理的时候，json文件中需要配置dataset_reader、inference这两个部分。
Prompt tuning的json配置大体与正常的文本分类json配置类似，以下介绍与prompt tuning相关的json配置。

{
  "dataset_reader": {
    "train_reader": {
      "name": "train_reader",
      "type": "BasicDataSetReader",
      "fields": [
        {
          "name": "text_a",
          "data_type": "string",
          "reader": {
            "type": "ErniePromptTextFieldReader"	# 采用prompt tuning的reader
          },
          "tokenizer": {
            "type": "FullTokenizer",
            "split_char": " ",
            "unk_token": "[UNK]"
          },
          "need_convert": true,
          "vocab_path": "../../models_hub/ernie_3.0_base_ch_dir/vocab.txt",
          "label_map_path": "./data/fewclue/eprstmt/dict/label_map.txt",	# 需填入label的词表文件
          "max_seq_len": 512,
          "truncation_type": 0,
          "padding_id": 0,
          "is_prompt_tuning": true,	# 是否采用prompt tuning的组网方式
          "prompt_len": 100,	# prompt embedding的长度
          "is_mask_res": 1,	# 是否采用mask预测的方式，默认开启。
          "mask_res_len": 1,	# mask的label长度，如第一个label_map示例为1，第二个示例该值需改为2
          "prompt": "text_a, "	# 用户可构造输入prompt，其中待分类的文本用text_a指代。
        },
        {
          "name": "label",
          "data_type": "int",
          "reader": {
            "type": "ScalarVerbalizerFieldReader"	# 采用verbalizer的reader
          },
					......
        }
      ],
      "config": {
        "data_path": "./data/fewclue/eprstmt/train_1",
				......
      }
    },
    "test_reader": {
			......
  },
  "model": {
    "type": "ErnieClassificationPromptMultiMask",
    "need_mask_id": true,	# 若采用mask预测的方式，该处需设为true
    "is_prompt_tuning": true,	# 是否为prompt tuning训练方式
    "prompt_len": 100,	# prompt embedding的长度
    "use_mlp_prompt": true,	# 是否采用mlp网络构造Prompt embedding
    "use_lstm_prompt": false,	# 是否采用lstm网络构造Prompt embedding
    "is_dygraph": 1, # 仅支持动态图
    "num_labels": 2, # 类别数
    ......
  },
  "trainer": {
    "type": "CustomDynamicTrainer",
    "is_freeze": false,	# 是否冻结预训练网络参数
		......
  }
}

开始训练

在开始训练前需要确定您已经配置好env.sh文件（否则会报错 No such file or directory: 'auth.txt'），并且在env.sh目录下执行以下命令source env.sh(注意：请确保env文件中的各个路径配置正确，每次打开新的终端窗口都需要执行source env.sh命令，env.sh文件的配置请参考：环境配置）

目录结构

Prompt tuning文本分类任务位于/wenxin/tasks/text_classification，仅支持动态图。

指定AUTH的配置路径，找到你自己的auth.txt，获取它的绝对路径，如/home/zhangsang/wenxin/wenxin_appzoo，那么将这个绝对路径设给环境变量WENXIN_AUTH_PATH，如下所示：
```
export WENXIN_AUTH_PATH=/home/zhangsang/wenxin/wenxin_appzoo
```

进入指定目录

cd wenxin_appzoo/wenxin_appzoo/tasks/text_classification

如果是gpu训练，先指定卡号，如下所示指定在0号卡上进行训练
```
export CUDA_VISIBLE_DEVICES=0
```
模型训练的入口脚本为./run_trainer.py ，通过--param_path参数来传入./examples/目录下的json配置文件。 python run_trainer.py --param_path=./examples/cls_prompt_tuning_ernie_fc_ch.json

训练运行的日志会自动保存在./log/test.log文件中。

训练中以及结束后产生的模型文件会默认保存在./output/cls_ernie_3.0_base_prompt_fc_ch_dy目录下，其中save_inference_model/文件夹会保存用于预测的模型文件，save_checkpoint/文件夹会保存用于热启动的模型文件。

开始预测

指定AUTH的配置路径，找到你自己的auth.txt，获取它的绝对路径，如/home/zhangsang/wenxin/wenxin_appzoo，那么将这个绝对路径设给环境变量WENXIN_AUTH_PATH，如下所示：
```
export WENXIN_AUTH_PATH=/home/zhangsang/wenxin/wenxin_appzoo
```

进入指定目录

cd wenxin_appzoo/wenxin_appzoo/tasks/text_classification

如果是gpu训练，先指定卡号，如下所示指定在0号卡上进行预测
```
export CUDA_VISIBLE_DEVICES=0
```
选定配置好的json文件，把你将要预测的模型对应的inference_model文件路径填入json文件的inference_model_path参数中。（其中网络中gather_nd op，在预测时有限制，目前预测的batch_size需小于等于训练时的batch_size，若用户想开大预测的batch_size，可load训练再save，如有疑问可联系客服同学解决。）
模型训练的入口脚本为./run_infer.py ，通过--param_path参数来传入./examples/目录下的json配置文件。
```
python run_infer.py --param_path=./examples/cls_prompt_tuning_ernie_fc_ch_infer.json
```

预测运行的日志会自动保存在./output/predict_result.txt文件中。

进阶任务-使用ERNIE-Word进行文本分类

进阶任务：使用ERNIE-Doc进行长文本分类