进阶使用:利用ERNIE-IE 2.0进行开放域信息抽取
更新时间:2022-12-16
- ERNIE-IE 2.0是专门基于ERNIE 2.0模型在开放域信息抽取领域进行优化的模型
- 开放域信息抽取利用单一模型支持多种类型的开放抽取任务,用户可以使用自然语言自定义抽取目标,无需训练即可抽取输入文本中的对应信息。
- ERNIE-IE 2.0技术方案是,将各种类型的信息抽取任务统一转化为自然语言的形式,并进行多任务联合训练,进而支持零样本信息抽取。模型的输入是待抽取文本(content)和自然语言描述的抽取目标(prompt),prompt通常建议的结构为“A的B”或“B”的形式,如下例子:
content:出租方:小明 地址:筒子街12号 电话:12345678900 承租方:小红 地址:新华路8号 电话:18345678901
prompt:地址
result:筒子街12号,新华路8号
content:出租方:小明 地址:筒子街12号 电话:12345678900 承租方:小红 地址:新华路8号 电话:18345678901
prompt:小明的地址
result:筒子街12号
- 更多ERNIE IE2.0模型请参考
ERNIE-IE 2.0
- ERNIE IE2.0模型和网络,除了支持实体抽取,还支持实体关系抽取、评论抽取以及情感分析等,下面主要对输入数据的格式进行简单介绍
实体关系抽取
{"content": "丝角蝗科,Oedipodidae,昆虫纲直翅目蝗总科的一个科\t丝角蝗科的目", "annotations": {"MRC": [{"text": "直翅目", "segments": [{"text": "直翅目", "start_offset": 20, "end_offset": 23}], "label": "answer"}]}, "title": "OPEN\tRE\tLIC2019"}
评论抽取
{"content": "离文化广场很近,效果还不错\t效果的评价", "annotations": {"MRC": [{"text": "效果还不错", "segments": [{"text": "效果还不错", "start_offset": 8, "end_offset": 13}], "label": "answer"}]}, "title": "COMMENT\tOPEN\tpinglun_abstract_1"}
情感分析
{"content": "方向盘向左稍有偏斜----上四轮定位调整两次OK。价格80元,4S要300多元,立马和他说\t情感倾向[负向,正向]", "annotations": {"MRC": [{"text": "负向", "segments": [{"text": "负向", "start_offset": -7, "end_offset": -5}], "label": "answer"}]}, "title": "OPEN\tSenti\tBaidu"}
自定义prompt的技巧
模型的抽取效果和用户构造的抽取目标prompt直接相关。所以使用时建议多尝试prompt的不同说法,查看效果。一般来说建议prompt尽量和原文类似,比如:
content: 海外网1月18日电据韩联社报道,当地时间18日下午,韩国首尔高等法院对李在镕“亲信干政”案二审重审宣判,判处其2年零6个月有期徒刑,李在镕当庭被捕
prompt: 时间
result: No result
prompt: 宣判时间
result: 当地时间18日下午