ERNIEKit是什么

更新时间：2022-08-03

ERNIE大模型的发展历史

文心ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架，该框架将大数据预训练与多源丰富知识相结合，通过持续学习技术，不断吸收海量文本数据中词汇、结构、语义等方面的知识，实现模型效果不断进化。ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术，在国际权威的通用语言理解评估基准GLUE上，得分首次突破90分，获得全球第一。在2020年的全球最大语义评测SemEval2020上，ERNIE摘得5项世界冠军，该技术也被全球顶级科技商业杂志《麻省理工科技评论》官方网站报道，相关创新成果也被国际顶级学术会议AAAI、IJCAI收录。ERNIE在工业界得到了大规模应用，如搜索引擎、新闻推荐、广告系统、语音交互、智能客服等。

ERNIEKit（文心·NLP开发套件）整体架构

详见整体架构

应用场景

文心·NLP大模型已被150余家企业和机构所采用，广泛应用于绝大部分NLP定制化开发场景，包括：

文本搜索、新闻资讯推荐和交互式问答系统等；
社交言论分析、商品评论分析、智能文本审核、金融风险洞察、品牌舆情分析等；
文档信息抽取、知识图谱构建等；
智能客服、知识库检索等；

文心·NLP大模型的优势

面向复杂产业需求的NLP端到端开发套件

针对NLP任务的特点，结合百度NLP数十年的实践经验积累，提供一套结构简洁、规范高效的开发工具。
提供从模型开发到模型工业化应用部署的一整套工具。
封装底层复杂逻辑细节，简化操作逻辑，操作代码行数更少，让开发更高效。
文心提供开箱即用的产品体验，并配套清晰的操作指南、最佳实践案例等，大大降低用户的上手门槛。
文心开发套件在百度大搜、凤巢、feed推荐等20余个部门的重点项目上广泛应用，带来了显著的业务效果提升。
文心开发套件在上百家企业与机构中有广泛应用，极大提升开发效能。

全面的产业级应用算法体系

包含40余项预置算法，全面覆盖典型的自然语言处理定制化开发场景。
包括政企、金融、医疗等行业技术方案；
建设信息抽取、搜索推荐、智能问答等应用任务算法；
同时提供自监督学习、多标签学习等基础任务算法；
并且在小样本场景下提供针对性的技术方案。

丰富的预训练模型体系

包括ERNIE-SIM、ERNIE-HEALTH、ERNIE-LAW等20余种预训练模型，让用户在特定场景下不需要进行昂贵的模型预训练就能够得到显著效果提升。
文心提供通用模型、轻量模型、任务场景模型和行业垂类模型等多种先进的预训练模型。

灵活易用的开发接口，可适应复杂开发任务

在神经网络组网方面，提供灵活修改网络结构的接口，支持原生的飞桨组网方式，能够实现如多标签学习、多任务学习等复杂任务的网络结构设计开发。
对于非算法背景用户，开发时长从一周降低到一天。

丰富强大的数据预处理策略

包括20余套数据预处理策略；
通过抽象出特征域的概念，能够灵活扩展各种复杂的任务所需的数据结构，甚至支持非文本的数值类特征输入。
提供格式校验、编码识别与转换、数据清洗等全面的数据与处理工具。
针对样本少的场景，提供数据增强、难例挖掘工具。
针对样本存在噪声的场景，提供数据降噪工具。

高效的训练加速与调参策略

支持自动混合精度、多线程并行训练、大规模CPU集群并行训练等高效的分布式训练方式。
提供贝叶斯调参、全自动调参等工具，降低训练调参成本。

全面的大规模预训练模型压缩技术

集成数据蒸馏、模型蒸馏、模型裁剪等模型压缩工具，最高可以将模型压缩到原来的1/17，inference速度提升22倍，且模型效果损失在0.8%以内。

高性能的预测部署模块

集成高性能预测部署模块工具，包含半精度预测、多线程预测等10余项加速推断策略。
可实现在部署场景下的全流程性能优化，并可以对不同场景提供定制化的模型轻量化解决方案。

简易的交互方式

集成简易的命令行交互与配置文件交互方式，用户可实现0代码定制化开发NLP策略。

如果您想了解文心NLP开发套件旗舰版，可以通过文心官网获得商务咨询。

整体架构