UIE任务介绍
更新时间:2022-12-17
任务介绍
通用信息抽取利用单一模型支持多种类型的抽取任务,用户可以使用自然语言自定义抽取目标,无需训练即可抽取输入文本中的对应信息。 ERNIE-UIE是一个面向多领域、多任务、跨模态的通用内容理解技术框架。其采用统一建模思想,单模型可以跨模态支持实体、关系、事件、KV、标签、情感等多种内容理解任务,并使得不同任务间具备良好的迁移和泛化能力。UIE支持不限定行业领域和抽取目标的关键信息抽取,可以实现零样本快速冷启动,同时具备优秀的小样本微调能力,低成本适配特定领域的抽取目标。
特性
- 使用简单:用户可以使用自然语言自定义抽取目标(Schema),无需训练即可抽取输入文本中的对应信息。实现开箱即用,满足各类信息抽取需求。
- 降本提效:以往技术需要大量标注数据才能保证效果,而UIE可实现开放域环境下的零样本(zero-shot)或少样本(few-shot)定制,大幅降低对标注数据的依赖。
- 效果领先:UIE在实体、关系、事件、情感等不同任务及多种场景下,都有不俗的表现。
版本说明
UIE的大版本差异如下,不同版本对应不同应用场景
大版本 | 模型名称 | 使用场景 | 支持任务 |
---|---|---|---|
UIE-v1(UIE) | uie-large | 面向纯文本场景的抽取式模型,仅支持中文 | 实体、词槽、关系、事件、评论、KV对(键值对)、关键词 |
UIE-v2(UIE-GEN) | uie-v2-large | 面向纯文本场景的生成式模型,仅支持中文 | 支持v1全部功能,还支持问题生成、关键内容提取(摘要) |
UIE-v3(UIE-X) | uie-v3-large | 面向纯文本和文档场景的抽取式模型,支持中英 | 支持v1全部功能,还支持文档/图片/表格的端到端信息提取 |
适用场景
- 成长业务场景:此类场景需求定义相对开放且不稳定,同时也缺少业务数据积累。主要涉及各类产品原型研发、业务POC等。通过MONET的小样本学习能力,可以实现快速、低成本的模型定制适配。
- 成熟业务场景:此类场景需求相对封闭,但对推理性能要求较高。可以使用小样本微调后的MONET生产更多标注数据,通过数据蒸馏形式优化传统封闭域式模型。
ERNIE-UIE与PaddleNLP-UIE的关联
PaddleNLP-UIE是ERNIE-UIE技术的对外开源版本,为ERNIE-UIE的技术子集,目前在PaddleNLP上维护,百度内部用户可以使用ERNIE-UIE来无缝替换UIE,相比于开源UIE,内部版本提供更多能力。
更多能力
- 更强大的模型:采用更多业务数据训练,提供large/base/medium/micro各尺寸模型。
- 更全面的能力:提供少样本分类能力、文档单据端到端抽取能力(UIE-X)等。
- 全流程轻定制:提供标注、训练、评估等全流程定制工具。
-
更低的部署成本:
- 参数高效微调框架:显著降低GPU部署成本。
- CPU绿色版蒸馏工具。