资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

ERNIE-M语义向量预测服务

任务简介

ERNIE-M-Vector 模型是一个拥有强大的语义匹配能力多语言匹配模型,我们使用hardest negative 方法对ERNIE-M 进行post pre-training,极大的提高了模型在跨语言检索任务,跨语言语义匹配任务上的性能效果。

快速开始

安装说明

请参考开发环境配置

  • 请使用以下命令进入文本分类任务(Text Classification)的训练目录。
cd wenxin_appzoo/tasks/text_classification/

代码结构说明

以下是本项目主要代码结构及说明:

├── data
│   └── tatoeba_data_small                        ## 基于 ERNIE-M 进行推断的 demo 输入数据
├── dict
│   ├── erniem.vocab.txt                          ## 基于 ERNIE-M 的字典
│   └── sentencepiece.bpe.model                   ## 基于 ERNIE-M 的切词模型
├── examples
│   └── cls_ernie_m_1.0_large_emb_infer.json      ## 基于 ERNIE-M 推断的 infer 文件
├── lanch.py
├── run_infer.py
└── run_lanch_infer.sh

数据准备

我们准备的预测数据格式为 tsv 文件:qid, label, text_a 待预测数据集放在 ./data/train_data_one_sent_multilingual 目录下 注:数据集为 utf-8 编码

离线预测

开始预测

  1. 下载 ERNIE-M-Vector 模型以及相关依赖
cd ../model_files && bash download_ernie-m_infer_ch.sh
  1. 使用预置网络进行预测的方式为使用./run_lanch_infer.sh入口脚本,通过传入./examples/目录下的json配置文件来配置模型参数
  2. 基于示例的数据集,可以运行以下命令在预测集(infer.txt)上进行预测:
# 基于json实现预测。其调用了配置文件 ./examples/cls_ernie_m_1.0_large_emb_infer.json
sh run_lanch_infer.sh ./examples/cls_ernie_m_1.0_large_emb_infer.json
  1. 预测运行的日志会自动保存在./output/predict_result.txt文件中
上一篇
核心接口设计
下一篇
网格搜索