文心的优势
更新时间:2021-03-23
面向复杂产业需求的NLP端到端开发套件
- 针对NLP任务的特点,结合百度NLP数年的实践经验积累,提供一套结构简洁、规范高效的开发工具。
- 提供从模型开发到模型工业化应用部署的一整套工具。
- 封装底层复杂逻辑细节,简化操作逻辑,操作代码行数更少,让开发更高效。
- 文心提供开箱即用的产品体验,并配套清晰的操作指南、最佳实践案例等,大大降低用户的上手门槛。
- 文心开发套件在百度搜索、百度凤巢、百度feed推荐等20余个部门的重点项目上广泛应用,带来了显著的业务效果提升。
- 文心开发套件在上百家企业与机构中有广泛应用,极大提升开发效能。
全面的产业级应用算法体系
- 包含40余项预置算法,全面覆盖典型的自然语言处理定制化开发场景。
- 包括政企、金融、医疗等行业技术方案;
- 建设信息抽取、搜索推荐、智能问答等应用任务算法;
- 同时提供自监督学习、多标签学习等基础任务算法;
- 并且在小样本场景下提供针对性的技术方案。
丰富的预训练模型体系
- 包括ERNIE-SIM、ERNIE-HEALTH、ERNIE-LAW等20余种预训练模型,让用户在特定场景下不需要进行昂贵的模型预训练就能够得到显著效果提升。
- 文心提供通用模型、轻量模型、任务场景模型和行业垂类模型等多种先进的预训练模型。
灵活易用的开发接口,可适应复杂开发任务
- 在神经网络组网方面,提供灵活修改网络结构的接口,支持原生的飞桨组网方式,能够实现如多标签学习、多任务学习等复杂任务的网络结构设计开发。
- 对于非算法背景用户,开发时长从一周降低到一天。
丰富强大的数据预处理策略
- 包括20余套数据预处理策略;
- 通过抽象出特征域的概念,能够灵活扩展各种复杂的任务所需的数据结构,甚至支持非文本的数值类特征输入。
- 提供格式校验、编码识别与转换、数据清洗等全面的数据与处理工具。
- 针对样本少的场景,提供数据增强、难例挖掘工具。
- 针对样本存在噪声的场景,提供数据降噪工具。
高效的训练加速与调参策略
- 支持自动混合精度、多线程并行训练、大规模CPU集群并行训练等高效的分布式训练方式。
- 提供贝叶斯调参、全自动调参等工具,降低训练调参成本。
全面的大规模预训练模型压缩技术
- 集成数据蒸馏、模型蒸馏、模型裁剪等模型压缩工具,最高可以将模型压缩到原来的1/17,inference速度提升22倍,且模型效果损失在0.8%以内。
高性能的预测部署模块
- 集成高性能预测部署模块工具,包含半精度预测、多线程预测等10余项加速推断策略。
- 可实现在部署场景下的全流程性能优化,并可以对不同场景提供定制化的模型轻量化解决方案。
简易的交互方式
- 集成简易的命令行交互与配置文件交互方式,用户可实现0代码定制化开发NLP策略。
文心的优势
面向复杂产业需求的NLP端到端开发套件
- 针对NLP任务的特点,结合百度NLP数十年的实践经验积累,提供一套结构简洁、规范高效的开发工具。
- 提供从模型开发到模型工业化应用部署的一整套工具。
- 封装底层复杂逻辑细节,简化操作逻辑,操作代码行数更少,让开发更高效。
- 文心提供开箱即用的产品体验,并配套清晰的操作指南、最佳实践案例等,大大降低用户的上手门槛。
- 文心开发套件在百度大搜、凤巢、feed推荐等20余个部门的重点项目上广泛应用,带来了显著的业务效果提升。
- 文心开发套件在上百家企业与机构中有广泛应用,极大提升开发效能。
全面的产业级应用算法体系
- 包含40余项预置算法,全面覆盖典型的自然语言处理定制化开发场景。
- 包括政企、金融、医疗等行业技术方案;
- 建设信息抽取、搜索推荐、智能问答等应用任务算法;
- 同时提供自监督学习、多标签学习等基础任务算法;
- 并且在小样本场景下提供针对性的技术方案。
丰富的预训练模型体系
- 包括ERNIE-SIM、ERNIE-HEALTH、ERNIE-LAW等20余种预训练模型,让用户在特定场景下不需要进行昂贵的模型预训练就能够得到显著效果提升。
- 文心提供通用模型、轻量模型、任务场景模型和行业垂类模型等多种先进的预训练模型。
灵活易用的开发接口,可适应复杂开发任务
- 在神经网络组网方面,提供灵活修改网络结构的接口,支持原生的飞桨组网方式,能够实现如多标签学习、多任务学习等复杂任务的网络结构设计开发。
- 对于非算法背景用户,开发时长从一周降低到一天。
丰富强大的数据预处理策略
- 包括20余套数据预处理策略;
- 通过抽象出特征域的概念,能够灵活扩展各种复杂的任务所需的数据结构,甚至支持非文本的数值类特征输入。
- 提供格式校验、编码识别与转换、数据清洗等全面的数据与处理工具。
- 针对样本少的场景,提供数据增强、难例挖掘工具。
- 针对样本存在噪声的场景,提供数据降噪工具。
高效的训练加速与调参策略
- 支持自动混合精度、多线程并行训练、大规模CPU集群并行训练等高效的分布式训练方式。
- 提供贝叶斯调参、全自动调参等工具,降低训练调参成本。
全面的大规模预训练模型压缩技术
- 集成数据蒸馏、模型蒸馏、模型裁剪等模型压缩工具,最高可以将模型压缩到原来的1/17,inference速度提升22倍,且模型效果损失在0.8%以内。
高性能的预测部署模块
- 集成高性能预测部署模块工具,包含半精度预测、多线程预测等10余项加速推断策略。
- 可实现在部署场景下的全流程性能优化,并可以对不同场景提供定制化的模型轻量化解决方案。
简易的交互方式
- 集成简易的命令行交互与配置文件交互方式,用户可实现0代码定制化开发NLP策略。