ERNIE-M语义向量预测服务
更新时间:2022-12-17
任务简介
ERNIE-M-Vector 模型是一个拥有强大的语义匹配能力多语言匹配模型,我们使用hardest negative 方法对ERNIE-M 进行post pre-training,极大的提高了模型在跨语言检索任务,跨语言语义匹配任务上的性能效果。
快速开始
安装说明
请参考开发环境配置
- 请使用以下命令进入文本分类任务(Text Classification)的训练目录。
cd wenxin_appzoo/tasks/text_classification/
代码结构说明
以下是本项目主要代码结构及说明:
├── data
│ └── tatoeba_data_small ## 基于 ERNIE-M 进行推断的 demo 输入数据
├── dict
│ ├── erniem.vocab.txt ## 基于 ERNIE-M 的字典
│ └── sentencepiece.bpe.model ## 基于 ERNIE-M 的切词模型
├── examples
│ └── cls_ernie_m_1.0_large_emb_infer.json ## 基于 ERNIE-M 推断的 infer 文件
├── lanch.py
├── run_infer.py
└── run_lanch_infer.sh
数据准备
我们准备的预测数据格式为 tsv 文件:qid, label, text_a 待预测数据集放在 ./data/train_data_one_sent_multilingual 目录下 注:数据集为 utf-8 编码
离线预测
开始预测
- 下载 ERNIE-M-Vector 模型以及相关依赖
cd ../model_files && bash download_ernie-m_infer_ch.sh
- 使用预置网络进行预测的方式为使用./run_lanch_infer.sh入口脚本,通过传入./examples/目录下的json配置文件来配置模型参数
- 基于示例的数据集,可以运行以下命令在预测集(infer.txt)上进行预测:
# 基于json实现预测。其调用了配置文件 ./examples/cls_ernie_m_1.0_large_emb_infer.json
sh run_lanch_infer.sh ./examples/cls_ernie_m_1.0_large_emb_infer.json
- 预测运行的日志会自动保存在./output/predict_result.txt文件中