ERNIE-M

更新时间：2022-08-03

基本介绍

目前文心提供ERNIE-M base 多语言模型。
ERNIE-M 是一个多语言模型，它通过大规模的单语语料和双语语料来捕捉语言之间的语义，可以同时建模96种语言，适用于各项多语言任务，跨语言任务。详细支持语种目录如下：（淡蓝色列为iso_code,黄色列为语种）
ERNIE-M base的模型下载脚本位于./wenxin_app/models_hub/目录下，为download_ernie_m_1.0_base.sh。执行下载脚本，会下载并生成对应的目录，其中包含模型参数文件、词表文件、网络配置文件、模型版本信息文件。

备注：有多重语言使用相同的iso code，如 zh 包括简体\繁体中文，ur 包括乌尔都语和乌尔都（罗马化）语言

原理介绍

ERNIE-M 的词表大小为 25万，涵盖了96种语言的大多数常见词汇，训练语料包含了汉语、英语、法语、南非语、阿尔巴尼亚语、阿姆哈拉语、梵语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语等96种语言。
ERNIE-M 的学习过程由两阶段组成。第一阶段从少量的双语语料中学习跨语言理解能力，使模型学到初步的语言对齐关系；第二阶段使用回译的思想，通过大量的单语语料学习，增强模型的跨语言理解能力。在第一阶段的学习中，ERNIE-M提出了 Cross-attention Masked Language Modeling (CAMLM) 预训练算法。该算法在少量双语语料上捕捉语言间的对齐信息。在CAMLM中，将一对双语句子记为 <源句子，目标句子>。CAMLM需要在不利用源句子上下文的情况下，通过目标句子还原被掩盖的词语。例如：输入的句子对是 <明天会[MASK][mask]吗，Will it be sunny tomorrow>，模型需要只使用英文句子来推断中文句子中掩盖住的词 <天晴>，使模型初步建模了语言间的对齐关系。
在此基础上，ERNIE-M又提出了 Back-translation Masked Language Modeling (BTMLM) 预训练算法。该方法基于回译机制从单语语料中学习语言间的对齐关系。首先，通过第一阶段学习到的CAMLM模型生成伪平行句子，然后让模型学习生成的伪平行句子。模型在对还原被掩盖的单词时，不仅可以依赖原始输入句子，也可以依赖生成的伪平行句子。例如，输入的单语句子是 <我真的很喜欢吃苹果>，模型首先会依据输入的句子 <我真的很喜欢吃苹果> 生成伪双语平行句子 <我真的很喜欢吃苹果，eat apple>。然后再对生成的伪平行句子<我真的很喜欢吃[MASK][mask]，eat apple >学习。通过这种方式，ERNIE-M利用单语语料更好地建模语义对齐关系。

模型效果

ERNIE-M 在5项跨语言任务上刷新了SoTA，同时登顶多语言权威评测榜单XTREME
自然语言推断 (XNLI)
命名实体识别 (CoNLL)
语义相似度 (PAWS-X)
阅读理解 (MLQA)
跨语言检索 (Tatoeba)
XTREME

使用方式

请移步使用ERNIE-M进行文本分类。

ERNIE-Word

ERNIE-Doc