情感分析任务

更新时间：2022-07-27

简介

相比于通用预训练中主要关注事实型文本(如新闻、百科等)，情感分析更侧重于分析主观型文本中蕴涵的情感和观点，因此有必要专门面向情感分析研发情感预训练模型。
为此，我们提出了基于情感知识增强的情感预训练算法 SKEP。此算法采用无监督方法自动挖掘情感知识，然后利用情感知识构建预训练目标，从而让机器学会理解情感语义。该方法被NLP会议ACL 2020收录，论文地址SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis。
具体来说，我们基于ERNIE模型应用SKEP方法再次预训练，对模型进行进一步提升并将预训练模型提供到文心中供大家使用。

环境安装

详见：快速使用-> 环境安装

目录结构

情感分析任务位于wenxin_appzoo/tasks/sentiment_analysis

├── data        ## 示例数据文件夹，包括各任务所需训练集、测试集、验证集和预测集 
│   ├── dev_data
│   │   └── part1.txt
│   ├── download_data.sh   ## 全量的开源数据集下载脚本
│   ├── predict_data
│   │   └── infer.txt
│   ├── test_data
│   │   └── part1.txt
│   └── train_data
│       └── part1.txt
├── examples
│   ├── cls_ernie_fc_ch_infer.json    ## 对fine tune之后的模型进行预测的配置文件 
│   └── cls_ernie_fc_ch.json    ## 对ERNIE-2.0-base进行fine tune训练的配置文件
├── inference
│   ├── custom_inference.py
│   └── __init__.py
├── __init__.py
├── model
│   ├── ernie_fc_classification.py
│   └── __init__.py
├── run_infer.py
├── run_trainer.py
└── trainer
    ├── custom_dynamic_trainer.py
    ├── custom_trainer.py
    └── __init__.py

准备工作

下载ERNIE-2.0-Base预训练模型

# 在wenxin_appzoo/models_hub/目录下下载管理ERNIE-Sentiment-1.0预训练模型，下载成功会看到名为ernie_sentiment_1.0_ch的目录，里面存放了ERNIE-Sentiment-1.0预训练模型对应的参数文件。
# 进入到 models_hub目录
cd  wenxin_appzoo/models_hub/
# 执行下载脚本
sh download_ernie_sentiment_1.0_ch.sh

准备数据：由于使用ERNIE系列模型进行fine tune，所以不需要用户自己切词和提供词表文件。

训练集、测试集和验证集的数据格式相同，如下所示。数据分为两列，列与列之间用\t进行分隔。第一列为文本，第二列为标签。

房间太小。其他的都一般。。。。。。。。。         0
我看过朋友的还可以，但是我订的书迟迟未到已有半个月，都没有收到打电话也没有用，以后你们订书一定要考虑好！当当实在是太慢了         1
还不错，设施稍微有点旧但是可以接收，但是606的价格还不含早餐有点高了。楼下的商场和超市很方便。下次来还会选择这家。         0

预测集数据：每个样本占一行，一行一列（只有一个text）

差得要命,很大股霉味,勉强住了一晚,第二天大早赶紧溜
acer的品质、服务都很不错，而且本品很超值。样子也算漂亮，基本性能只要不玩大游戏全能应付。
跟住招待所没什么太大区别。 绝对不会再住第2次的酒店！

开始训练

参数配置：demo配置文件为./examples/cls_ernie_fc_ch.json，用户需要自己配置的参数为：trainer_reader、test_reader、dev_reader这三个reader对应的数据集路径、batch-size、trainer_reader的epoch；model中的is_dygraph、optimization；trainer中的PADDLE_PLACE_TYPE、PADDLE_IS_FLEET、output_path、几个step设置等，如下图中的json注释所示：

{
  "dataset_reader": {
    "train_reader": {
      "name": "train_reader",
      "type": "BasicDataSetReader",
      "fields": [
        {
          "name": "text_a",
          "data_type": "string",
          "reader": {
            "type": "ErnieTextFieldReader"
          },
          "tokenizer": {
            "type": "FullTokenizer",
            "split_char": " ",
            "unk_token": "[UNK]"
          },
          "need_convert": true,
          "vocab_path": "../../models_hub/ernie_sentiment_1.0_ch_dir/vocab.txt",
          "max_seq_len": 512,
          "truncation_type": 0,
          "padding_id": 0,
          "embedding": null
        },
        {
          "name": "label",
          "data_type": "int",
          "reader": {
            "type": "ScalarFieldReader"
          },
          "tokenizer": null,
          "need_convert": false,
          "vocab_path": "",
          "max_seq_len": 1,
          "truncation_type": 0,
          "padding_id": 0,
          "embedding": null
        }
      ],
      "config": {
        "data_path": "./data/train_data",   ## 填写自己的训练集路径即可，写到文件夹目录。
        "shuffle": true,                    ## 训练过程中是否要打乱数据顺序
        "batch_size": 8,                ## 可以根据自己的硬件显存或者内存大小进行调整
        "epoch": 10,                    ## 根据需要自己调整
        "sampling_rate": 1.0,
        "need_data_distribute": true,   ## 是否需要按卡进行数据分发，多卡训练的时候训练集需要设置为true，确保每张卡拿到不一样的数据
        "need_generate_examples": false ## 数据处理的时候需要将明文原始样本进行分true发，默认是false，当预测的时候如果需要返回明文原始样本的时候，设置为true
      }
    },
    "test_reader": {
      "name": "test_reader",
      "type": "BasicDataSetReader",
       ....
      "config": {
        "data_path": "./data/test_data",    ## 填写自己的测试集路径即可，写到文件夹目录。
        "shuffle": false,										## 不需要打乱数据顺序
        "batch_size": 8,                    ## 可以根据自己的硬件显存或者内存大小进行调整
        "epoch": 1,
        "sampling_rate": 1.0,
        "need_data_distribute": false,
        "need_generate_examples": false
      }
    },
    "dev_reader": {
      "name": "dev_reader",
      "type": "BasicDataSetReader",
      ....
      "config": {
        "data_path": "./data/dev_data",   ## 填写自己的测试集路径即可，写到文件夹目录。
        "shuffle": false,                 ## 不需要打乱数据顺序
        "batch_size": 8,                  ## 可以根据自己的硬件显存或者内存大小进行调整
        "epoch": 1,
        "sampling_rate": 1.0,
        "need_data_distribute": true,
        "need_generate_examples": false
      }
    }
  },
  "model": {
    "type": "ErnieFcClassification",
    "is_dygraph": 1,
    "optimization": {
      "learning_rate": 5e-05,
      "use_lr_decay": true,
      "warmup_steps": 0,
      "warmup_proportion": 0.1,
      "weight_decay": 0.01,
      "use_dynamic_loss_scaling": false,
      "init_loss_scaling": 128,
      "incr_every_n_steps": 100,
      "decr_every_n_nan_or_inf": 2,
      "incr_ratio": 2.0,
      "decr_ratio": 0.8
    },
    "embedding": {
      "type": "ErnieTokenEmbedding",
      "emb_dim": 1024,
      "use_fp16": false,
      "config_path": "../../models_hub/ernie_sentiment_1.0_ch_dir/ernie_config.json",
      "other": ""
    },
    "num_labels": 2
  },
  "trainer": {
    "type": "CustomDynamicTrainer",  ## 设置训练器类型，和model中的is_dygraph参数配合使用，动态图使用CustomDynamicTrainer，is_dygraph设置为1，静态图使用CustomTrainer，is_dygraph设置为0
    "PADDLE_PLACE_TYPE": "gpu",  ## 训练时使用的硬件类型，可以选择gpu、cpu
    "PADDLE_IS_FLEET": 1,      ## 是否使用fleet模型训fleet训练，多卡或者多机必须使用fleet模式
    "PADDLE_IS_FLEET": 1,      ## 是否进行单机训练，1表示单机训练，0表示分布式训练
    "train_log_step": 10,      ## 训练时打印训练日志的间隔步数。
    "is_eval_dev": 1,    ## 是否在训练的时候评估验证集，1为需评估，此时必须配置dev_reader。
    "is_eval_test": 1,   ## 是否在训练的时候评估测试集，1为需评估，此时必须配置test_reader。
    "eval_step": 100,    ## 进行测试集或验证集评估的间隔步数。
    "save_model_step": 500,  ## 保存模型时的间隔步数，建议设置为eval_step的整数倍。
    "load_parameters": "",   ## 加载已训练好的模型的op参数值，不会加载训练步数、学习率等训练参数，可用于加载预训练模型。如需使用填写具体文件夹路径即可。
    "load_checkpoint": "",   ## 加载已训练好的模型的所有参数，包括学习率等，可用于热启动。如需使用填写具体文件夹路径即可。
    "use_fp16": 0,
    "pre_train_model": [
      {
        "name": "ernie_sentiment_1.0_ch",  ## ernie_sentiment_1.0_ch 预训练模型加载时使用的名称，不要修改
        "params_path": "../../models_hub/ernie_sentiment_1.0_ch_dir/params"  ## ernie_sentiment_1.0_ch预训练模型的参数目录
      }
    ],
    "output_path": "./output/sa_ernie_sentiment_1.0_ch_dy",  ## 保存模型的输出路径，若为空则默认。为"./output"
    "extra_param": {
      "meta":{
        "job_type": "sentiment_analysis"
      }
    }
  }
}

启动训练

如您使用镜像开发套件，您可直接进入下一步骤。
```
python run_trainer.py --param_path=./examples/cls_ernie_fc_ch.json
```
训练运行的日志会自动保存在./log/test.log文件中；

训练中以及结束后产生的模型文件会默认保存在./output/目录下，其中save_inference_model/文件夹会保存用于预测的模型文件，save_checkpoint/文件夹会保存用于热启动的模型文件。

开始预测

参数配置：demo配置文件为./examples/cls_ernie_fc_ch_infer.json，用户需要自己配置的参数为：predict_reader对应的数据集路径、batch-size；inference中的PADDLE_PLACE_TYPE、output_path、inference_model_path，如下图中的json注释所示：

{
  "dataset_reader": {
    "predict_reader": {
      "name": "predict_reader",
      "type": "BasicDataSetReader",
      "fields": [
        {
          "name": "text_a",
          "data_type": "string",
          "reader": {
            "type": "ErnieTextFieldReader"
          },
          "tokenizer": {
            "type": "FullTokenizer",
            "split_char": " ",
            "unk_token": "[UNK]"
          },
          "need_convert": true,
          "vocab_path": "../../models_hub/ernie_sentiment_1.0_ch_dir/vocab.txt",
          "max_seq_len": 512,
          "truncation_type": 0,
          "padding_id": 0,
          "embedding": null
        }
      ],
      "config": {
        "data_path": "./data/predict_data",  ## 填写你自己的预测数据集路径即可,写到文件夹目录
        "shuffle": false,
        "batch_size": 8,                    ## 可以根据自己的硬件显存或者内存大小进行调整
        "epoch": 1,
        "sampling_rate": 1.0,
        "need_data_distribute": false,  
        "need_generate_examples": true
      }
    }
  },
   "inference": {
    "output_path": "./output/predict_result.txt",   ## 预测结果存放路径
    "PADDLE_PLACE_TYPE": "gpu",   ## 是否使用GPU，1表示使用GPU
    "num_labels": 2,  ## 类别数量
    "thread_num": 2,  ## 线程数量配置，cpu模式下使用
    "inference_model_path":   "./output/sa_ernie_sentiment_1.0_ch_dy/save_inference_model/inference_step_126/",  ## 待预测的模型路径。
    "extra_param": {
      "meta":{
        "job_type": "sentiment_analysis"
      }
    }
  }
}

启动预测

如您使用镜像开发套件，您可直接进入下一步骤。
```
python run_infer.py --param_path=./examples/cls_ernie_fc_ch_infer.json
```
预测运行的日志会自动保存在./output/predict_result.txt文件中。预测结果为每个类别对应的概率值，每个样本的所有类别概率值相加之和为1。

开始训练和预测（ERNIE百亿&15亿模型）

金融负面信息识别