准备工作：文本匹配

更新时间：2022-12-17

数据准备

在文心中，基于ERNIE的模型都不需要用户自己分词和生成词表文件，非ERNIE的模型需要用户自己提前切好词，词之间以空格分隔，并生成词表文件。切词和词表生成可以使用【快速开始->数据预处理工具】进行处理。

文心中的所有数据集、包含词表文件、label_map文件等都必须为为utf-8格式，如果你的数据是其他格式，请使用快速使用->数据预处理工具进行格式转换。

在文本匹配任务中，根据其训练方式的不同，训练集分为Pointwise和Pairwise两种格式，测试集、验证集和预测集的格式相同。

非ERNIE数据的pointwise训练集、pairwise训练集、测试集、验证集和预测集分别存放在./data目录下的train_data_pointwise_tokenized、train_data_pairwise_tokenized、test_data_tokenized、dev_data_tokenized和predict_data_tokenized文件夹下。
ERNIE数据的pointwise训练集、pairwise训练集、测试集、验证集和预测集分别存放在./data目录下的train_data_pointwise、train_data_pairwise、test_data、dev_data和predict_data文件夹下。

下面将提供具体示例：

非ERNIE模型数据

训练集

Pointwise训练集

Pointwise训练集样例如下所示，数据分为三列，列与列之间用\t分割。前两列为文本，最后一列为标签。

喜欢 打篮球 的 男生 喜欢 什么样 的 女生    爱 打篮球 的 男生 喜欢 什么样 的 女生   1
我 手机 丢 了 ， 我 想 换 个 手机    我 想 买 个 新手机 ， 求 推荐   1
大家 觉得 她 好看 吗    大家 觉得 跑 男 好看 吗 ？  0

Pairwise训练集

Pairwise训练集样例如下所示，数据分为三列，列与列之间用\t分割，以query和文章标题匹配任务为例，第一列为query，第二列为正例标题pos_titile，第三列为负例标题neg_title。

喜欢 打篮球 的 男生 喜欢 什么样 的 女生    爱 打篮球 的 男生 喜欢 什么样 的 女生    爱情 里 没有 谁 对 谁错 吗 ？
我 手机 丢 了 ， 我 想 换 个 手机    我 想 买 个 新手机 ， 求 推荐    剑灵 高级 衣料 怎么 得
大家 觉得 她 好看 吗    大家 觉得 跑 男 好看 吗 ？    照片 怎么 变成 漫画

词表

ERNIE此表文件格式与非ERNIE的格式一致，由文心提供

[PAD]	0
[CLS]	1
[SEP]	2
[MASK]	3
的	4
这个	5
您好	6
...
[UNK]   1566

测试集/验证集

测试集/验证集样例如下所示，数据分为三列，列与列之间用\t进行分隔，前两列为文本，最后一列为标签。

我 姓 王 图片 怎么 制作    制作 文字 图片	0
为什么 鱼 会 被 淹死    为什么 鱼 会 淹死	1
深圳 如何 过 澳门    深圳 去 澳门 该 怎样 去	1

预测集

预测集样例如下所示，预测集无需进行标签预占位，数据为两列文本，两列文本之间使用\t进行分隔。

图片 上 得 牌子 是 什么    图片 上 是 什么 牌子 的 包
芹菜 包 什么 肉 好吃       芹菜 炒 啥 好吃
汽车 坐垫 什么 牌子 好 ？    什么 牌子 的 汽车 坐垫 好

ERNIE模型数据

ERNIE数据集与非ERNIE数据集格式一致，不同之处在于不用分词，以验证集/测试集为例子，如下所示：

我姓王图片怎么制作    制作文字图片    0
为什么鱼会被淹死    为什么鱼会淹死    1
深圳如何过澳门    深圳去澳门该怎样去    1

词表

ERNIE词表文件格式与非ERNIE的格式一致，ERNIE词表由文心提供，wenxin/tasks/model_files/dict路径下有各ERNIE模型的词表文件，用户可根据需要进行选择，具体示例如下所示：
```
[PAD]    0
[CLS]    1
[SEP]    2
[MASK]   3
，    4
的    5
、    6
一    7
人    8
```

非ERNIE预测数据集示例：仅一列为文本，不需要标签列

USB接口 只有 2个 ， 太 少 了 点 ， 不能 接 太多 外 接 设备 ！ 表面 容易 留下 污垢 ！ 
平时 只 用来 工作 ， 上 上网 ， 挺不错 的 ， 没有 冗余 的 功能 ， 样子 也 比较 正式 ！ 还 可以 吧 ， 价格 实惠   宾馆 反馈   2008年4月17日   ：   谢谢 ！ 欢迎 再次 入住 其士 大酒店 。

非ERNIE模型的词表文件示例：词表分为两列，第一列为词，第二列为id（从0开始），列与列之间用\t进行分隔。文心的词表中，[PAD]、[CLS]、[SEP]、[MASK]、[UNK]这5个词是必须要有的，若用户自备词表，需保证这5个词是存在的。部分词表示例如下所示：
```
[PAD]	0 
[CLS]	1 
[SEP]	2 
[MASK]	3 
[UNK]	4 
郑重	5 
天空	6 
工地	7 
神圣	8
```

ERNIE数据集与非ERNIE数据集格式一致，不同之处在于不用分词，如下所示：

选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。         1 
15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错         1 
房间太小。其他的都一般。。。。。。。。。         0

ERNIE词表文件格式与非ERNIE的格式一致，由文心提供。

[PAD]   0 
[CLS]  1 
[SEP]  2 
[MASK] 3 
，  4 
的  5 
、  6 
一  7 
人  8 
有  9

网络（模型）选择

文心预置的可用于文本分类的模型源文件在wenxin_appzoo/tasks/text_matching/model目录下，在介绍具体的模型前先对文本匹配网络涉及到的概念进行描述。

	单塔	双塔
Pointwise
Pairwise

Pointwise/Pairwise
- Pointwise
  
  输入两个文本和一个标签，可看作为一个分类问题，即判断输入的两个文本是否匹配。
- Pairwise
  
  输入为三个文本，分别为Query以及对应的正样本和负样本，该训练方式考虑到了文本之间的相对顺序。
单塔/双塔
- 单塔
  
  先将输入文本合并，然后输入到单一的神经网络模型。
- 双塔
  
  对输入文本分别进行编码成固定长度的向量，通过文本的表示向量进行交互计算得到文本之间的关系。

各个模型的特点如下所示：

网络名称（py文件的类名）	简介	支持类型	支持预训练模型
BowMatchingPairwise	词袋模型，不考虑句子语序，用一组无序单词来表达一段文本；Pairwise双塔模型。	Pairwise	无
ErnieMatchingFcPointwise	增加ERNIE预训练模型，下游网络为基础的文本匹配模型，可以任意搭配其他各种经典网络；Pointwise单塔模型。	Pointwise	ERNIE1.0、ERNIE2.0-Base、ERNIE2.0-Large、ERNIE2.1-Base、ERNIE2.1-Large、ERNIE2.2-Base、ERNIE-Tiny
ErnieMatchingSiamesePairwise	增加ERNIE预训练模型，下游网络采用余弦相似度作为匹配度计算，损失函数为合页损失函数；Pairwise双塔模型。	Pairwise	ERNIE1.0、ERNIE2.0-Base、ERNIE2.0-Large、ERNIE2.1-Base、ERNIE2.1-Large、ERNIE2.2-Base、ERNIE-Tiny、ERNIE-SIM
ErnieMatchingSiamesePointwise	增加ERNIE预训练模型，下游网络采用长短期记忆网络，可较好地处理序列文本中长距离依赖的问题；Pointwise双塔模型；	Pointwise	ERNIE1.0、ERNIE2.0-Base、ERNIE2.0-Large、ERNIE2.1-Base、ERNIE2.1-Large、ERNIE2.2-Base、ERNIE-Tiny、ERNIE-SIM

ERNIE预训练模型选择

文心提供的ERNIE预训练模型的下载脚本在wenxin_appzoo/models_hub目录下，各预训练模型可由对应的download_xx.sh文件下载得到，用户可根据需求自行下载。其中，ernie_config.json为ERNIE预训练模型的配置文件，vocab.txt为ERNIE预训练模型的词表文件，params目录为ERNIE预训练模型的参数文件目录，以下是各个ERNIE预训练模型的介绍。

模型名称	简介
ERNIE 1.0	ERNIE 1.0通过建模海量数据中的词、实体及实体关系，学习真实世界的语义知识。相较于 BERT 学习原始语言信号，ERNIE 直接对先验语义知识单元进行建模，增强了模型语义表示能力。
ERNIE 2.0	ERNIE 2.0是基于持续学习的语义理解预训练框架，使用多任务学习增量式构建预训练任务。ERNIE 2.0中，新构建的预训练任务类型可以无缝的加入训练框架，持续的进行语义理解学习。通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务，ERNIE 2.0语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息，极大地增强了通用语义表示能力。
ERNIE 2.3	ERNIE 2.3是针对ERNIE2.0优化后的一个版本，通过提出多视角对抗预训练语言技术、随机位置编码策略和对比自监督预训练技术，使得模型在8个中文主流下游任务上获得了明显的效果提升。
ERNIE-Tiny	ERNIE-Tiny网络结构与ERNIE 1.0 base 中文模型不完全相同，有独立的模型配置json文件和dict。与传统基于字粒度的ERNIE中文模型不同，ERNIE Tiny是基于词粒度的预训练模型。
ERNIE-SIM	ERNIE-Sim是针对提升中文短文本语义匹配效果预训练模型，模型结构与ERNIE 1.0 base中文模型相同，共享ERNIE 1.0 base中文模型的模型配置json文件和dict。
ERNIE-Sim2.0	ERNIE-Sim2.0 是针对提升中文短文本语义匹配效果预训练模型，其是在 ERNIE-Sim的基础上引入更多、更丰富的预训练数据和基于动态ngram的字词混合粒度对比策略。ERNIE-Sim2.0 模型结构与 ERNIE-Sim模型相同，模型配置文件和词表文件也与 ERNIE-Sim一致。

模型评估指标选择

匹配任务常用的指标有：Acc（准确率）、Precision（精确率）、Recall（召回率）、pn（正逆序比）、Auc、F1等，详见基本概念->Metrics 文心中上述已有的网络（模型）代码中已经默认预置了Acc（准确率）、Precision（精确率）、pn（正逆序比）、Auc计算。

运行环境选择

非ERNIE网络，优先考虑CPU机器
ERNIE网络优先考虑GPU机器，显存大小最好在10G以上。

(New)进阶任务：Prompt tuning文本匹配

匹配任务：医疗问答