资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

进阶使用:利用ERNIE-IE 2.0进行开放域信息抽取

  • ERNIE-IE 2.0是专门基于ERNIE 2.0模型在开放域信息抽取领域进行优化的模型
  • 开放域信息抽取利用单一模型支持多种类型的开放抽取任务,用户可以使用自然语言自定义抽取目标,无需训练即可抽取输入文本中的对应信息。
  • ERNIE-IE 2.0技术方案是,将各种类型的信息抽取任务统一转化为自然语言的形式,并进行多任务联合训练,进而支持零样本信息抽取。模型的输入是待抽取文本(content)和自然语言描述的抽取目标(prompt),prompt通常建议的结构为“A的B”或“B”的形式,如下例子:
content:出租方:小明 地址:筒子街12号 电话:12345678900 承租方:小红 地址:新华路8号 电话:18345678901
prompt:地址  
result:筒子街12号,新华路8号
content:出租方:小明 地址:筒子街12号 电话:12345678900 承租方:小红 地址:新华路8号 电话:18345678901
prompt:小明的地址  
result:筒子街12号
  • 更多ERNIE IE2.0模型请参考ERNIE-IE 2.0
  • ERNIE IE2.0模型和网络,除了支持实体抽取,还支持实体关系抽取、评论抽取以及情感分析等,下面主要对输入数据的格式进行简单介绍

实体关系抽取

{"content": "丝角蝗科,Oedipodidae,昆虫纲直翅目蝗总科的一个科\t丝角蝗科的目", "annotations": {"MRC": [{"text": "直翅目", "segments": [{"text": "直翅目", "start_offset": 20, "end_offset": 23}], "label": "answer"}]}, "title": "OPEN\tRE\tLIC2019"}

评论抽取

{"content": "离文化广场很近,效果还不错\t效果的评价", "annotations": {"MRC": [{"text": "效果还不错", "segments": [{"text": "效果还不错", "start_offset": 8, "end_offset": 13}], "label": "answer"}]}, "title": "COMMENT\tOPEN\tpinglun_abstract_1"}

情感分析

{"content": "方向盘向左稍有偏斜----上四轮定位调整两次OK。价格80元,4S要300多元,立马和他说\t情感倾向[负向,正向]", "annotations": {"MRC": [{"text": "负向", "segments": [{"text": "负向", "start_offset": -7, "end_offset": -5}], "label": "answer"}]}, "title": "OPEN\tSenti\tBaidu"}

自定义prompt的技巧

模型的抽取效果和用户构造的抽取目标prompt直接相关。所以使用时建议多尝试prompt的不同说法,查看效果。一般来说建议prompt尽量和原文类似,比如:

content: 海外网1月18日电据韩联社报道,当地时间18日下午,韩国首尔高等法院对李在镕“亲信干政”案二审重审宣判,判处其2年零6个月有期徒刑,李在镕当庭被捕
prompt: 时间
result: No result
 
prompt: 宣判时间
result: 当地时间18日下午
上一篇
训练与预测:开放域抽取
下一篇
开放域信息抽取(生成式)