ERNIE-M语义向量预测服务

更新时间：2022-12-17

任务简介

ERNIE-M-Vector 模型是一个拥有强大的语义匹配能力多语言匹配模型，我们使用hardest negative 方法对ERNIE-M 进行post pre-training，极大的提高了模型在跨语言检索任务，跨语言语义匹配任务上的性能效果。

快速开始

安装说明

请参考开发环境配置

请使用以下命令进入文本分类任务（Text Classification）的训练目录。

cd wenxin_appzoo/tasks/text_classification/

代码结构说明

以下是本项目主要代码结构及说明：

├── data
│   └── tatoeba_data_small                        ## 基于 ERNIE-M 进行推断的 demo 输入数据
├── dict
│   ├── erniem.vocab.txt                          ## 基于 ERNIE-M 的字典
│   └── sentencepiece.bpe.model                   ## 基于 ERNIE-M 的切词模型
├── examples
│   └── cls_ernie_m_1.0_large_emb_infer.json      ## 基于 ERNIE-M 推断的 infer 文件
├── lanch.py
├── run_infer.py
└── run_lanch_infer.sh

数据准备

我们准备的预测数据格式为 tsv 文件:qid, label, text_a 待预测数据集放在 ./data/train_data_one_sent_multilingual 目录下注：数据集为 utf-8 编码

离线预测

开始预测

下载 ERNIE-M-Vector 模型以及相关依赖

cd ../model_files && bash download_ernie-m_infer_ch.sh

使用预置网络进行预测的方式为使用./run_lanch_infer.sh入口脚本，通过传入./examples/目录下的json配置文件来配置模型参数
基于示例的数据集，可以运行以下命令在预测集（infer.txt）上进行预测：

# 基于json实现预测。其调用了配置文件 ./examples/cls_ernie_m_1.0_large_emb_infer.json
sh run_lanch_infer.sh ./examples/cls_ernie_m_1.0_large_emb_infer.json

预测运行的日志会自动保存在./output/predict_result.txt文件中

核心接口设计

网格搜索