文心是什么
更新时间:2021-05-13
文心(ERNIE)大规模语义理解技术与平台,依托百度深度学习平台飞桨打造,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级文本模型。
“文心”出自中国南朝文学家刘勰的《文心雕龙·序志》,原指用雕镂龙纹那样精细的功夫研究文字的内涵和魅力,我们借此表示用心做语义理解的决心。
“文心语义理解开发套件”是面向复杂产业需求的NLP端到端开发套件。
文心开发套件整体架构

详见 整体架构
应用场景
文心已被150余家企业和机构所采用,广泛应用于绝大部分NLP定制化开发场景,具体包括:
- 文本搜索、新闻资讯推荐和交互式问答系统等;
- 社交言论分析、商品评论分析、智能文本审核、金融风险洞察、品牌舆情分析等;
- 文档信息抽取、知识图谱构建等。
文心的优势
面向复杂产业需求的NLP端到端开发套件
- 针对NLP任务的特点,结合百度NLP数十年的实践经验积累,提供一套结构简洁、规范高效的开发工具。
- 提供从模型开发到模型工业化应用部署的一整套工具。
- 封装底层复杂逻辑细节,简化操作逻辑,操作代码行数更少,让开发更高效。
- 文心提供开箱即用的产品体验,并配套清晰的操作指南、最佳实践案例等,大大降低用户的上手门槛。
- 文心开发套件在百度大搜、凤巢、feed推荐等20余个部门的重点项目上广泛应用,带来了显著的业务效果提升。
- 文心开发套件在上百家企业与机构中有广泛应用,极大提升开发效能。
全面的产业级应用算法体系
- 包含40余项预置算法,全面覆盖典型的自然语言处理定制化开发场景。
- 包括政企、金融、医疗等行业技术方案;
- 建设信息抽取、搜索推荐、智能问答等应用任务算法;
- 同时提供自监督学习、多标签学习等基础任务算法;
- 并且在小样本场景下提供针对性的技术方案。
丰富的预训练模型体系
- 包括ERNIE-SIM、ERNIE-HEALTH、ERNIE-LAW等20余种预训练模型,让用户在特定场景下不需要进行昂贵的模型预训练就能够得到显著效果提升。
- 文心提供通用模型、轻量模型、任务场景模型和行业垂类模型等多种先进的预训练模型。
灵活易用的开发接口,可适应复杂开发任务
- 在神经网络组网方面,提供灵活修改网络结构的接口,支持原生的飞桨组网方式,能够实现如多标签学习、多任务学习等复杂任务的网络结构设计开发。
- 对于非算法背景用户,开发时长从一周降低到一天。
丰富强大的数据预处理策略
- 包括20余套数据预处理策略;
- 通过抽象出特征域的概念,能够灵活扩展各种复杂的任务所需的数据结构,甚至支持非文本的数值类特征输入。
- 提供格式校验、编码识别与转换、数据清洗等全面的数据与处理工具。
- 针对样本少的场景,提供数据增强、难例挖掘工具。
- 针对样本存在噪声的场景,提供数据降噪工具。
高效的训练加速与调参策略
- 支持自动混合精度、多线程并行训练、大规模CPU集群并行训练等高效的分布式训练方式。
- 提供贝叶斯调参、全自动调参等工具,降低训练调参成本。
全面的大规模预训练模型压缩技术
- 集成数据蒸馏、模型蒸馏、模型裁剪等模型压缩工具,最高可以将模型压缩到原来的1/17,inference速度提升22倍,且模型效果损失在0.8%以内。
高性能的预测部署模块
- 集成高性能预测部署模块工具,包含半精度预测、多线程预测等10余项加速推断策略。
- 可实现在部署场景下的全流程性能优化,并可以对不同场景提供定制化的模型轻量化解决方案。
简易的交互方式
- 集成简易的命令行交互与配置文件交互方式,用户可实现0代码定制化开发NLP策略。
发行版本
文心开发套件提供两个发行版本:专业版 和 旗舰版。
- 专业版提供了ERNIE2.0预训练模型,同时提供基于ernie-sim的预置服务任务。
- 旗舰版提供了全家桶预训练模型集及其相关预制任务、网络、数据处理工具、预测部署工具等。
如果您想了解文心NLP开发套件旗舰版,可以通过文心官网获得商务咨询。
加入开发者社区
如果您对文心有任何与功能、使用 等相关的问题,欢迎加入 文心社区 参与讨论。
- 文心NLP开发套件QQ群:1097307223
