资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

医疗实体识别

任务简介

  • 医疗实体识别:CCKS2019评测任务一,主要目标是对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体提及,并将它们归类到预定义类别,比如疾病、治疗、检查检验等。
  • 本任务采用预训练模型ERNIE-Health进行训练。
  • 在通过文心使用ERNIE-Health非常简单,只需要将通用模型替换为ERNIE-Health即可。

快速开始

1. 代码结构说明

以下是本项目主要代码结构及说明:

代码目录: wenxin-premium/tasks/entity_recognition_for_health

.
├── __init__.py                                                                               
├── env.sh                                                 ## 环境变量配置脚本
├── run_with_json.py                                       ## 只依靠json进行模型训练的入口脚本
├── run_infer.py                                           ## 只依靠json进行模型预测的入口脚本
├── examples                                               ## 各典型网络的json配置文件
│   ├── seqlab_ernie_health_1.0_fc_ch.json
│   └── seqlab_ernie_health_1.0_fc_ch_infer.json
├── data                                                   ## 示例数据文件夹,包括各任务所需训练集(train_data)、测试集(test_data)和预测集(predict_data)
│   ├── train_data_seqlab
│   │   └── train.txt
│   ├── test_data_seqlab
│   │   └── test.txt
│   └── predict_data_seqlab
│        └── predict.txt
└── dict                                                   ## 示例词表文件夹
     └── vocab_label_map.txt                               ## 示例IOB标注方式的标签词表

2. 数据准备

  • 这里我们提供一份已标注的(BIO方式)、经过分词预处理的示例数据集。
  • 训练集、测试集和预测集分别存放在data文件夹中的train_data_seqlab、test_data_seqlab和predict_data_seqlab路径下。
  • 注:(1)数据集(包含词表)均为utf-8格式。(2)label map BIO的顺序有要求。
训练集/测试集/验证集
  • 训练集、测试集和验证集的数据格式相同,如下所示。数据分为两列,列与列之间用\t进行分隔,字符之间用空格进行分隔。第一列为文本,第二列为标签。
, 患 者 3 月 余 前 于 我 院 诊 断 为 “ 直 肠 癌 ” , 于 2 0 1 5 - 1 0 - 2 6 在 全 麻 上 行 腹 腔 镜 直 肠 癌 根 治 术 , , 术 后 病 理 示 : , 2 0 1 5 1 8 5 0 2 : ( 直 肠 ) 腺 癌 ( 中 度 分 化 ) , 浸 润 溃 疡 型 , 体 积 2 . 7 * 2 * 0 . 8 C M , 侵 达 浆 膜 。 双 端 切 线 及 另 送 “ 近 切 线 ” 、 “ 远 切 线 ” 未 查 见 癌 。 肠 壁 一 站 ( 6 个 ) 、 中 间 组 ( 3 个 ) 、 中 央 组 ( 3 个 ) 淋 巴 结 未 查 见 癌 。 低 级 别 腺 管 状 腺 瘤 。 , 免 疫 组 化 染 色 示 : T S 部 分 ( + ) 、 S Y N ( - ) 。 , 术 后 病 理 分 期 : P T 3 N 0 M 0 , I I 期 , D U K E S B 。 依 情 2 0 1 5 - 1 1 - 0 8 . 2 0 1 5 - 1 2 - 0 9 给 予 奥 沙 利 铂 2 0 0 M G D 1 + 亚 叶 酸 钙 0 . 3 G D 2 - 6 + 替 加 氟 1 G D 2 - 6 静 滴 , 同 时 辅 以 镇 吐 、 升 血 、 免 疫 调 节 等 对 症 支 持 治 疗 。 化 疗 过 程 总 体 顺 利 。 现 为 复 查 化 疗 来 我 院 , 门 诊 以 “ 直 肠 癌 术 后 ” 收 入 院 。 目 前 患 者 精 神 好 , 食 欲 及 饮 食 好 , 夜 间 睡 眠 良 好 , 小 便 正 常 , 大 便 4 - 5/ 天 , 基 本 成 形 。 否 认 近 期 明 显 体 重 变 化 。	O O O O O O O O O O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O B-手术 I-手术 I-手术 I-手术 I-手术 I-手术 I-手术 I-手术 I-手术 O O O O O O O O O O O O O O O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-药物 I-药物 I-药物 I-药物 O O O O O O O O B-药物 I-药物 I-药物 I-药物 O O O O O O O O O B-药物 I-药物 I-药物 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
, 患 者 因 “ 结 肠 癌 ” 于 2 0 1 2 - 1 2 - 1 3 在 我 院 于 全 麻 上 行 右 半 结 肠 切 1 5 除 术 , 手 术 过 程 顺 利 , 术 后 给 予 抗 感 染 及 营 养 支 持 治 疗 , 患 者 恢 复 好 , 切 口 愈 合 良 好 , , 术 后 病 理 : 1 3 8 6 2 . 2 0 1 2 结 肠 腺 癌 ( 中 度 分 化 ) , 溃 疡 型 , 面 积 6 . 5 * 3 . 5 , 侵 达 浆 膜 脂 肪 组 织 。 双 端 切 线 未 查 见 癌 。 结 肠 腺 管 状 腺 瘤 。 呈 肠 壁 一 站 ( 1 / 5 个 ) 淋 巴 结 癌 转 移 。 肠 壁 二 站 ( 3 个 ) 淋 巴 结 未 查 见 癌 。 , 免 疫 组 化 染 色 示 癌 组 织 : E R C C 1 ( + ) 、 T S 少 数 细 胞 ( + ) 。 ( P T 4 A N 1 M 0 , I I I A , D U C K S C ) 。 后 患 者 恢 复 好 出 院 , 术 后 给 予 化 疗 2 周 期 。 院 外 期 间 患 者 一 般 情 况 好 , 无 恶 心 , 无 腹 痛 腹 胀 胀 不 适 , 现 患 者 为 行 复 查 及 化 疗 再 次 来 院 就 诊 , 门 诊 以 “ 结 肠 癌 术 后 ” 收 入 院 。 近 期 患 者 精 神 可 , 饮 食 可 , 大 便 次 数 多 , 小 便 正 常 , 近 期 体 重 无 明 显 变 化 。	O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O O O B-手术 I-手术 I-手术 I-手术 I-手术 I-手术 I-手术 I-手术 I-手术 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O B-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 O O O O B-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 I-解剖部位 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-解剖部位 O B-解剖部位 O O O O O O O O O O O O O O O O O O O O O O O O O O B-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 I-疾病和诊断 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
预测集
  • 预测集无需进行标签预占位,其格式如下所示:
, 患 者 2 0 0 893 日 因 “ 腹 胀 , 发 现 腹 部 包 块 ” 在 我 院 腹 科 行 手 术 探 查 , 术 中 见 盆 腹 腔 肿 物 , 与 肠 管 及 子 宫 关 系 密 切 , 遂 行 “ 全 子 宫 左 附 件 切 除 + 盆 腔 肿 物 切 除 + 右 半 结 肠 切 除 + D I X O N 术 ” , 术 后 病 理 示 颗 粒 细 胞 瘤 , 诊 断 为 颗 粒 细 胞 瘤 I I I C 期 , 术 后 自 2 0 0 81 1 月 起 行 B E P 方 案 化 疗 共 4 程 , 末 次 化 疗 时 间 为 2 0 0 932 6 日 。 之 后 患 者 定 期 复 查 , 2 0 1 5 - 6 - 1 , 复 查 C T 示 : 髂 嵴 水 平 上 腹 部 L 5 腰 椎 前 见 软 组 织 肿 块 , 大 小 约 3 0 M M × 4 5 M M , 密 度 欠 均 匀 , 边 界 尚 清 楚 , 轻 度 强 化 。 查 肿 瘤 标 志 物 均 正 常 。 于 2 0 1 5 - 7 - 6 行 剖 腹 探 查 + 膀 胱 旁 肿 物 切 除 + 骶 前 肿 物 切 除 + 肠 表 面 肿 物 切 除 术 , 术 程 顺 利 , , 术 后 病 理 示 : 膀 胱 旁 肿 物 及 骶 前 肿 物 符 合 颗 粒 细 胞 瘤 。 于 2 0 1 5 - 7 - 1 38 - 1 4 给 予 泰 素 2 4 0 M G + 伯 尔 定 6 0 0 M G 化 疗 2 程 , 过 程 顺 利 。 出 院 至 今 , 无 发 热 , 无 腹 痛 、 腹 胀 , 有 脱 发 , 现 返 院 复 诊 , 拟 行 再 次 化 疗 收 入 院 。 起 病 以 来 , 精 神 、 胃 纳 、 睡 眠 可 , 大 小 便 正 常 , 体 重 无 明 显 改 变 。
, 患 者 于 2 0 1 192 9 日 在 我 院 因 “ 子 宫 内 膜 癌 I I 期 ” 在 全 麻 上 行 “ 广 泛 全 子 宫 切 除 + 两 侧 附 件 切 除 + 盆 腔 淋 巴 结 清 扫 + 腹 主 动 脉 旁 淋 巴 结 活 检 术 ” , 术 中 探 查 见 盆 腹 腔 未 见 腹 水 , 子 宫 增 大 , 约 1 0 * 8 * 7 C M , 饱 满 , 两 侧 附 件 未 见 异 常 , 盆 腔 及 腹 主 动 脉 旁 淋 巴 结 未 及 肿 大 。 术 程 顺 利 , , 术 后 病 理 回 报 : 腹 水 未 见 癌 ; ( 全 子 宫 + 两 附 件 ) 送 检 子 宫 大 小 为 1 0 * 6 * 4 C M , 宫 腔 内 见 菜 花 样 肿 物 大 小 为 5 * 4 * 3 C M , 灰 黄 质 硬 , 浸 润 浅 肌 层 ; 镜 上 中 至 低 分 化 子 宫 内 膜 样 腺 癌 , 部 分 呈 鳞 状 分 化 , 浸 润 子 宫 浅 肌 层 , 未 累 及 宫 颈 管 ; 右 输 卵 管 系 膜 内 见 子 宫 内 膜 异 位 ; 两 附 件 、 阴 道 残 端 、 淋 巴 结 未 见 癌 ; , 免 疫 组 化 : E R ( + ) , P R ( - ) 。 , 术 后 诊 断 : 子 宫 内 膜 样 腺 癌 I A 1 期 。 因 肿 瘤 为 中 至 低 分 化 且 大 小 为 5 * 4 * 3 C M , 术 后 有 化 疗 指 征 。 于 2 0 1 11 01 1 日 、 1 11 6 日 行 T P ( 泰 素 + 伯 尔 定 ) 方 案 化 疗 2 程 , 化 疗 后 出 现 轻 度 恶 心 、 呕 吐 , 伴 脱 发 , 无 骨 痛 及 四 肢 麻 木 等 不 适 , 白 细 胞 最 低 降 至 2 . 7 × 1 0 9 / L , 未 处 理 可 自 行 升 至 正 常 。 自 发 病 以 来 , 精 神 、 食 欲 、 睡 眠 良 好 , 无 腹 痛 及 腹 胀 , 无 腰 酸 , 大 小 便 正 常 。 体 重 较 下 次 化 疗 增 加 3 K G 。 , 既 往 化 疗 及 肿 瘤 标 志 物 情 况 : , 化 疗 药 物 毒 副 反 应 : 。
, 患 者 于 2 0 1 01 0 月 因 \ " 上 腹 痛 伴 大 便 习 惯 改 变 \ " 外 院 行 肠 镜 , 活 检 病 理 示 中 分 化 腺 癌 ; , 外 院 B 超 示 : 盆 腔 内 2 个 巨 大 团 块 , 考 虑 卵 巢 来 源 可 能 性 大 ; 盆 腔 大 量 积 液 。 来 我 院 就 诊 , 考 虑 乙 状 结 肠 癌 伴 不 完 全 梗 阻 、 盆 腔 肿 物 , 2 0 1 0 - 1 0 - 2 5 我 院 行 \ " 子 宫 切 除 + 两 附 件 切 除 + D I X O N 术 + 大 网 膜 切 除 术 开 腹 恶 性 肿 瘤 特 殊 治 疗 术 \ " , 术 中 5 - F U 1 0 0 0 M G 肠 腔 化 疗 , 门 静 脉 5 - F U 2 5 0 M G 化 疗 , 中 人 氟 安 8 0 0 M G 腹 腔 化 疗 , , 病 理 回 报 : 乙 状 结 肠 中 分 化 腺 癌 , 两 侧 卵 巢 转 移 瘤 , 中 央 组 淋 巴 结 转 移 4 / 1 5 , P T 4 B N 2 M 12 0 1 0 - 1 1 - 1 0 我 院 复 查 C T 提 示 肝 S 56 段 肝 转 移 。 遂 于 2 0 1 0 - 1 1 - 1 62 0 1 1 - 3 - 1 1 行 F O R F I R I 方 案 化 疗 7 程 , 4 程 、 6 程 复 查 C T 疗 效 评 价 为 S D , 后 于 2 0 1 1 - 4 - 6 转 外 科 行 \ " 肝 转 移 瘤 切 除 术 \ " , , 术 后 病 理 : 符 合 肠 癌 肝 转 移 。 后 于 2 0 1 1 - 0 5 - 2 02 0 1 1 - 0 8 - 0 5 继 续 F O R F I R I 方 案 化 疗 4 程 。 后 定 期 复 查 至 2 0 1 2 - 0 2 - 2 1 我 院 C T 提 示 右 下 肺 及 右 上 肺 结 节 、 左 前 胸 壁 结 节 , 考 虑 转 移 瘤 , 两 肺 多 发 结 节 结 节 状 小 空 洞 影 未 排 除 转 移 。 考 虑 肿 瘤 复 发 , 于 2 0 1 2 - 0 3 - 0 1 始 行 F O L F O X 方 案 6 程 , 3 , 程 后 复 查 C T 疗 效 评 价 : S D 。 , 6 程 后 2 0 1 2 - 7 - 1 0 我 院 C T : 肝 S 682 病 灶 , 可 疑 转 移 瘤 , 建 议 M R 检 查 。 脾 内 低 密 度 影 , 可 疑 转 移 瘤 。 , 疗 效 评 价 : S D 。 现 为 进 一 步 诊 治 入 院 , 患 者 自 觉 无 不 适 , 胃 纳 、 睡 眠 可 , 二 便 如 常 。
词表

标签词表

  • 示例数据采用BIO方式标注,用户也可以根据需要自行选择标注方式,并配置对应的./dict文件夹下的vocab_label_map.txt。
  • 示例标签词表如下所示。词表分为两列,第一列完整标签,其形式为“标注类型-语块类型”,第二列为id(从0开始),列与列之间用\t进行分隔。
  • 注:标签词表应按照语块类型进行排列,如B-手术后接I-手术,而不是B-药物

3. 训练模型

开始训练
  • 使用预置网络进行训练的方式为使用./run_with_json.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
  • 以预置的医疗实体识别训练脚本seqlab_ernie_health_1.0_fc_ch.json为例,训练分为以下几个步骤:

    1. 请使用以下命令在../model_files中通过对应脚本下载ernie_health_1.0_ch模型参数文件,其对应配置文件ernie_health_1.0_ch_config.json和词表vocab_ernie_health_1.0_ch.txt分别位于../model_files目录下的config和dict文件夹,用户无需更改;
    # ernie_health_1.0_ch 模型下载
    # 进入model_files目录
    cd ../model_files/
    # 运行下载脚本
    sh download_ernie_health_1.0_ch.sh
    1. 请在./env.sh中根据提示配置相应环境变量的路径;
    2. 基于示例的数据集,可以运行以下命令在训练集(train.txt)上进行模型训练,并在测试集(test.txt)上进行验证;
    # 医疗实体识别模型
    # 基于json实现预置网络训练。其调用了配置文件./examples/seqlab_ernie_health_1.0_fc_ch.json
    python run_with_json.py --param_path ./examples/seqlab_ernie_health_1.0_fc_ch.json
    1. 训练运行的日志会自动保存在./log/test.log文件中;
    2. 训练中以及结束后产生的模型文件会默认保存在./output/seqlab_ernie_health_1.0_fc_ch目录下,其中save_inference_model文件夹会保存用于预测的模型文件,save_checkpoint文件夹会保存用于热启动的模型文件。

4. 预测模型

开始预测
  • 使用预置网络进行预测的方式为使用./run_infer.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
  • 以预置的医疗实体识别预测脚本seqlab_ernie_health_1.0_fc_ch_infer.json为例,预测分为以下几个步骤:

    1. 基于示例的数据集,可以运行以下命令在预测集(predict.txt)上进行预测:
    # 医疗实体识别模型
    # 基于json实现预测。其调用了配置文件./examples/seqlab_ernie_health_1.0_fc_ch_infer.json
    python run_infer.py --param_path ./examples/seqlab_ernie_health_1.0_fc_ch_infer.json
    1. 预测运行的日志会自动保存在./output/predict_result.txt文件中。