资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

UIE任务介绍

任务介绍

通用信息抽取利用单一模型支持多种类型的抽取任务,用户可以使用自然语言自定义抽取目标,无需训练即可抽取输入文本中的对应信息。 ERNIE-UIE是一个面向多领域、多任务、跨模态的通用内容理解技术框架。其采用统一建模思想,单模型可以跨模态支持实体、关系、事件、KV、标签、情感等多种内容理解任务,并使得不同任务间具备良好的迁移和泛化能力。UIE支持不限定行业领域和抽取目标的关键信息抽取,可以实现零样本快速冷启动,同时具备优秀的小样本微调能力,低成本适配特定领域的抽取目标。

特性

  • 使用简单:用户可以使用自然语言自定义抽取目标(Schema),无需训练即可抽取输入文本中的对应信息。实现开箱即用,满足各类信息抽取需求。
  • 降本提效:以往技术需要大量标注数据才能保证效果,而UIE可实现开放域环境下的零样本(zero-shot)或少样本(few-shot)定制,大幅降低对标注数据的依赖。
  • 效果领先:UIE在实体、关系、事件、情感等不同任务及多种场景下,都有不俗的表现。

版本说明

UIE的大版本差异如下,不同版本对应不同应用场景

大版本 模型名称 使用场景 支持任务
UIE-v1(UIE) uie-large 面向纯文本场景的抽取式模型,仅支持中文 实体、词槽、关系、事件、评论、KV对(键值对)、关键词
UIE-v2(UIE-GEN) uie-v2-large 面向纯文本场景的生成式模型,仅支持中文 支持v1全部功能,还支持问题生成、关键内容提取(摘要)
UIE-v3(UIE-X) uie-v3-large 面向纯文本和文档场景的抽取式模型,支持中英 支持v1全部功能,还支持文档/图片/表格的端到端信息提取

适用场景

  • 成长业务场景:此类场景需求定义相对开放且不稳定,同时也缺少业务数据积累。主要涉及各类产品原型研发、业务POC等。通过MONET的小样本学习能力,可以实现快速、低成本的模型定制适配。
  • 成熟业务场景:此类场景需求相对封闭,但对推理性能要求较高。可以使用小样本微调后的MONET生产更多标注数据,通过数据蒸馏形式优化传统封闭域式模型。

image.png

ERNIE-UIE与PaddleNLP-UIE的关联

PaddleNLP-UIE是ERNIE-UIE技术的对外开源版本,为ERNIE-UIE的技术子集,目前在PaddleNLP上维护,百度内部用户可以使用ERNIE-UIE来无缝替换UIE,相比于开源UIE,内部版本提供更多能力。

更多能力

  • 更强大的模型:采用更多业务数据训练,提供large/base/medium/micro各尺寸模型。
  • 更全面的能力:提供少样本分类能力、文档单据端到端抽取能力(UIE-X)等。
  • 全流程轻定制:提供标注、训练、评估等全流程定制工具。
  • 更低的部署成本:

    • 参数高效微调框架:显著降低GPU部署成本。
    • CPU绿色版蒸馏工具。
上一篇
开放域信息抽取(生成式)
下一篇
UIE预测:预测函数和批量预测任务