实体关系抽取
更新时间:2022-01-25
一对一实体关系抽取
任务简介
- 实体关系抽取是信息抽取的关键任务;实体关系抽取是指从一段文本中抽取关系三元组
- 实体关系抽取举例:“任正非在深圳创办了华为公司。”这个句子中“任正非”是实体1,“华为”是实体2,而它们之间的关系是“创办”,最终抽取的三元组为(任正非,创办,华为)。
- 可以将实体属性抽取中的“属性”和“属性值”分别对应理解成实体关系抽取中的“关系”和“实体2”。
快速开始
1. 代码结构说明
以下是本项目主要代码结构及说明:
代码目录: wenxin-premium/tasks/entity_relation_extraction
.
├── __init__.py
├── inference_api_demo.py ## 实体关系抽取预测结果解析脚本
├── run_with_json.py ## 只依靠json进行模型训练的入口脚本
├── run_infer.py ## 只依靠json进行模型预测的入口脚本
├── examples ## 各典型网络的json配置文件
│ ├── ie_ernie_2.0_base_fc_ch_infer.json
│ ├── ie_ernie_2.0_base_fc_ch.json
│ └── test_infer_api.json
├── data ## 示例数据文件夹,包括各任务所需训练集(train_data)、测试集(test_data)、验证集(dev_data)和预测集(predict_data)
│ ├── train_data
│ │ └── train.txt
│ ├── test_data
│ │ └── test.txt
│ ├── dev_data
│ │ └── dev.txt
│ └── predict_data
│ └── predict.txt
└── dict ## 词表文件夹,包含标签词表label_map
└── vocab_label_map.txt2. 数据准备
- 这里我们提供一份已标注的示例数据集。该任务预置网络基于ERNIE的模型进行训练,数据集不需要分词且无需准备词表。
- 训练集、测试集、验证集和预测集分别存放在./data目录下的train_data、test_data、dev_data和predict_data文件夹下,对应的示例标签词表存放在./dict目录下。
- 注:数据集(包含词表)均为utf-8格式。
训练集/测试集/验证集
- 训练集、测试集和验证集的数据格式相同,如下所示。数据分为三列,列与列之间用\t进行分隔。
- 第一列为文本
- 第二列为标签(实体1 实体2 关系,三者之间用空格分隔)
- 第三列为两个实体的下标(实体在原文中的位置,包含词的起始点和结束点,用空格分隔)。不需要提供“关系”的下标。
如何演好自己的角色,请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈 喜剧之王 周星驰 主演 21 24 26 28
茶树茶网蝽,StephanitischinensisDrake,属半翅目网蝽科冠网椿属的一种昆虫 茶树茶网蝽 半翅目 目 0 4 33 35
丝角蝗科,Oedipodidae,昆虫纲直翅目蝗总科的一个科 丝角蝗科 直翅目 目 0 3 20 22预测集
- 预测集无需进行标签预占位,其格式如下所示:
查尔斯阿兰基斯(CharlesArnguiz),1989年4月17日出生于智利圣地亚哥,智利职业足球运动员,司职中场,效力于德国足球甲级联赛勒沃库森足球俱乐部
《离开》是由张宇谱曲,演唱
《愤怒的唐僧》由北京吴意波影视文化工作室与优酷电视剧频道联合制作,故事以喜剧元素为主,讲述唐僧与佛祖打牌,得罪了佛祖,被踢下人间再渡九九八十一难的故事词表
- 标签词表分为两列,列与列之间用\t进行分隔。示例词表采用BIO标注,B表示关系,分为主体(subject:S)与客体(object:O),如下所示:
- 并且需要注意词表中BIO的顺序,B排在最前面,I次之,O最后。
B-主演@S 0
B-主演@O 1
B-目@S 2
B-目@O 3
...
I 98
O 993. 训练第一个模型
开始训练
- 使用预置网络进行训练的方式为使用./run_with_json.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
-
训练分为以下几个步骤:
- 请使用以下命令在../model_files/中通过对应脚本download_ernie_2.0_base_ch.sh下载模型参数文件,其对应配置文件ernie_2.0_base_ch_config.json和词表vocab_ernie_2.0_base_ch.txt分别位于../model_files/目录下的config/和dict/文件夹,用户无需更改;
# download_ernie_2.0_base_ch.sh 模型下载 # 进入model_files目录 cd ../model_files/ # 运行下载脚本 sh download_ernie_2.0_base_ch.sh- 请在./env.sh中根据提示配置相应环境变量的路径
- 基于示例的数据集,可以运行以下命令在训练集(train.txt)上进行模型训练,并在测试集(test.txt)上进行验证;
# 实体关系抽取--训练 # 需要提前参照env.sh进行环境变量配置,在当前shell内去读取 source env.sh # 基于json实现预置网络训练。其调用了配置文件./examples/ie_ernie_2.0_base_fc_ch.json python run_with_json.py --param_path ./examples/ie_ernie_2.0_base_fc_ch.json- 训练运行的日志会自动保存在./log/test.log文件中;
- 训练中以及结束后产生的模型文件会默认保存在./output/目录下,其中save_inference_model/文件夹会保存用于预测的模型文件,save_checkpoint/文件夹会保存用于热启动的模型文件
4. 模型预测
开始预测
- 使用预置网络进行预测的方式为使用./run_infer.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
-
预测分为以下几个步骤:
- 基于示例的数据集,可以运行以下命令在预测集(predict.txt)上进行预测:
# 实体关系抽取--预测 # 基于json实现预测。其调用了配置文件./examples/ie_ernie_2.0_base_fc_ch_infer.json python run_infer.py --param_path ./examples/ie_ernie_2.0_base_fc_ch_infer.json- 预测运行的日志会自动保存在./output/predict_result.txt文件中。
多对多实体关系抽取
任务简介
- 实体关系抽取是信息抽取的关键任务;实体关系抽取是指从一段文本中抽取关系三元组;相对于之前的上述版本,本次新版本除了支持一对一之外还支持了一对多,多对一,多对多的情况:
- 一对一:“张三男汉族硕士学历”含有一对一的属性三元组(张三,民族,汉族)。
- 一对多:“华扬联众数字技术股份有限公司于2017年8月2日在上海证券交易所上市”,含有一对多的属性三元组(华扬联众数字技术股份有限公司,上市时间,2017年8月2日)和(华扬联众数字技术股份有限公司,上市地点,上海证券交易所上市)
- 多对一:“上海森焱软件有限公司和上海欧提软件有限公司的注册资本均为100万人民币”,含有多对一的属性三元组(上海森焱软件有限公司,注册资本,100万人民币)和(上海欧提软件有限公司,注册资本,100万人民币)
- 多对多:“大华种业稻麦种子加工36.29万吨、销售37.5万吨;苏垦米业大米加工22.02万吨、销售24.86万吨”,含有多对多的属性三元组(大华种业,稻麦种子产量,36.29万吨)和(苏垦米业,大米加工产量,22.02万吨)
快速开始
1. 代码结构说明
以下是本项目主要代码结构及说明:
代码目录: wenxin-premium/tasks/entity_relation_extraction_many_to_many
.
├── __init__.py
├── run_with_json.py ## 只依靠json进行模型训练的入口脚本
├── run_infer.py ## 只依靠json进行模型预测的入口脚本
├── examples ## 各典型网络的json配置文件
│ ├── cls_ernie_2.0_base_duie_ch.json
│ ├── cls_ernie_2.0_base_duie_ch_infer.json
│ ├── cls_ernie_ie_1.0_base_duie_ch.json
│ └── cls_ernie_ie_1.0_base_duie_ch_infer.json
├── data ## 示例数据文件夹,包括各任务所需训练集(train_data)、测试集(test_data)、验证集(dev_data)和预测集(predict_data)
│ ├── train_data
│ │ └── train.json
│ ├── test_data
│ │ └── test.json
│ ├── dev_data
│ │ └── dev.json
│ └── predict_data
│ └── predict.json
└── dict ## 词表文件夹,包含标签词表label_map
└── label_map.json2. 数据准备
- 这里我们提供一份已标注的示例数据集。该任务预置网络基于ERNIE的模型进行训练,数据集不需要分词且无需准备词表。
- 训练集、测试集、验证集和预测集分别存放在./data目录下的train_data、test_data、dev_data和predict_data文件夹下,对应的示例标签词表存放在./dict目录下。
- 注:数据集(包含词表)均为utf-8格式。
训练集/测试集/验证集
- 训练集、测试集和验证集的数据格式相同,每个样例为一个json字符串,有两个key:1. "text"表示相关文本,2."spo_list"是一个SPO列表,其中每一项有三个key("predicate"表示关系类型,"subject"表示主体起始和终止位置,"object"表示客体起始和终止位置)
{"text": "倪金德,1916年生,奉天省营口(今辽宁省营口市)人", "spo_list": [{"predicate": "出生日期", "subject": [0, 3], "object": [4, 9]}, {"predicate": "出生地", "subject": [0, 3], "object": [11, 16]}]}
{"text": "基本介绍克里斯蒂娜·塞寇丽(Christina Sicoli)身高163cm,在加拿大安大略出生和长大,毕业于伦道夫学院", "spo_list": [{"predicate": "毕业院校", "subject": [4, 13], "object": [55, 60]}]}预测集
- 预测集只有一个key("text"):
{"text": "倪金德,1916年生,奉天省营口(今辽宁省营口市)人"}
{"text": "基本介绍克里斯蒂娜·塞寇丽(Christina Sicoli)身高163cm,在加拿大安大略出生和长大,毕业于伦道夫学院"}词表
- 标签列表是一个json字符串,key是标签值,value是标签对应id,示例词表采用BIO标注,B表示关系,分为主体(S)与客体(O),如下所示:
{
"O": 0,
"I": 1,
"B-毕业院校@S": 2,
"B-毕业院校@O": 3,
"B-出生地@S": 4,
"B-出生地@O": 5,
"B-祖籍@S": 6,
"B-祖籍@O": 7,
"B-国籍@S": 8,
"B-国籍@O": 9,
"B-出生日期@S": 10,
"B-出生日期@O": 11
}- 注意:O, I对应的ID必须是0, 1,B-XXX@O对应的id需要必须为B-XXX@S对应的id+1
3. 训练第一个模型
开始训练
- 使用预置网络进行训练的方式为使用./run_with_json.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
-
训练分为以下几个步骤:
- 请使用以下命令在../model_files/中通过对应脚本download_ernie_ie_1.0_base_ch.sh下载模型参数文件,其对应配置文件ernie_ie_1.0_base_ch_config.json和词表vocab_ernie_ie_1.0_base_ch.txt分别位于../model_files/目录下的config/和dict/文件夹,用户无需更改;
# download_ernie_ie_1.0_base_ch.sh 模型下载 # 进入model_files目录 cd ../model_files/ # 运行下载脚本 sh download_ernie_ie_1.0_base_ch.sh- 请在./env.sh中根据提示配置相应环境变量的路径
- 基于示例的数据集,可以运行以下命令在训练集(train.json)上进行模型训练,并在测试集(test.json)上进行验证;
# 实体关系抽取--训练
# 需要提前参照env.sh进行环境变量配置,在当前shell内去读取
source env.sh
# 基于json实现预置网络训练。其调用了配置文件./examples/cls_ernie_ie_1.0_base_duie_ch.json
python run_with_json.py --param_path ./examples/cls_ernie_ie_1.0_base_duie_ch.json- 训练运行的日志会自动保存在./log/test.log文件中;
- 训练中以及结束后产生的模型文件会默认保存在./output/目录下,其中save_inference_model/文件夹会保存用于预测的模型文件,save_checkpoint/文件夹会保存用于热启动的模型文件
4. 模型预测
开始预测
- 使用预置网络进行预测的方式为使用./run_infer.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
-
预测分为以下几个步骤:
- 基于示例的数据集,可以运行以下命令在预测集(predict.txt)上进行预测:
# 实体关系抽取--预测 # 基于json实现预测。其调用了配置文件./examples/cls_ernie_ie_1.0_base_duie_ch_infer.json python run_infer.py --param_path ./examples/cls_ernie_ie_1.0_base_duie_ch_infer.json- 预测运行的日志会自动保存在./output/predict_result.txt文件中。
