资讯 社区 文档 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

用BML实现文本实体抽取

目录

1.文本实体抽取简介
2.平台入口
3.准备数据
3.1 数据规范
3.2 创建及导入数据集
4.训练模型
5.校验模型
6.部署模型

用BML实现文本实体抽取:以简历信息抽取为例

文本实体抽取简介

亲爱的开发者您好,欢迎使用百度BML全功能AI开发平台开启您的AI开发之旅!

文本实体抽取是一项重要的自然语言处理任务,主要是实现对文本进行内容抽取,并识别为自定义的实体类别。

例如:对内容中的关键实体进行识别和抽取,如金融研报信息识别,法律案件文书实体抽取,医疗病例实体抽取等多种应用场景。

下文中将以简历信息抽取为例,分步骤向您详细介绍如何使用百度BML全功能AI开发平台开发您自己的文本实体抽取模型。

简历信息抽取任务简介:
AI简历分析可以帮助HR在海量简历中迅速准确地找到和JD匹配的候选人,在各大招聘网站、各大公司的简历筛选过程中都有着广泛的应用。其中,简历信息抽取任务是简历分析的基础任务之一。

平台入口

BML全功能AI开发平台为企业及个人开发者提供机器学习和深度学习一站式AI开发服务,并提供高性价比的算力资源,助力企业快速构建高精度AI应用,进入官方网站点击【立即使用】

1、平台入口.png

准备数据

准备数据是AI模型开发的关键一环,训练数据的质量决定了训练所得模型效果可达到的上限。
数据可参考:简历信息抽取
下面来介绍数据规范与相关操作步骤。

数据规范

本地上传数据规范:

  • 可支持Excel上传,Excel文件内首行为表头,每行为一个样本。
  • 每个样本字符数不得超过10000个字符(约5000个字),超出将被截断。
  • 文件格式支持xlsx格式,单次可上传100个文件。

创建及导入数据集

1、在官网界面点击【数据总览】,进入数据集操作界面。

3.1数据.png

2、进入创建数据集界面,选择好数据类型和标注类型等信息,点击完成。

3.1数据1.png

3、数据集创建完成后,可以在数据总览界面看到刚才创建好的数据集ID。

3.1数据2.png

4、点击【导入】,将自己要训练的数据集导入,如这里选择本地导入Excel文件方式导入数据集,点击添加文件,然后确认并返回,完成数据集的导入。

3.1数据3.png

5、回到数据总览界面,可实时查看导入状态信息和标注状态,最终成功则显示已完成。

3.1数据4.png

训练模型

BML上提供了预置模型调参、NoteBook建模、自定义作业三种开发模式,开发难度和开发的灵活性程度不一,分别满足不同水平和需求的开发者。

当前NLP方向仅支持使用者最多的预置模型调参模式,后续将陆续支持NoteBook建模、自定义作业开发模式。

本文将采用预置模型调参开发模式示意训练模型的基本步骤。

1、进入bml官方平台点击立即使用预置模型调参,点击【预置模型调参】-【自然语言处理模型】,进入操作台。

预置模型调参.png

自然语言处理.png

2、在模型列表下点击创建模型。

自然语言处理模型创建.png

选择训练类型为文本实体抽取,填写模型信息(名称、描述信息等)后,点击【创建】。

3、在模型列表下可看到所建模型信息,若平台已上传好数据集,则点击新建任务跳转至创建训练任务。

自然语言处理新建任务.png

4、配置NLP分类训练任务。

之前已经建立好训练模型,现在开始配置NLP训练训练,点击【新建任务】。

4.1训练4.png

在新建任务面板中,可查看相关项目“基本信息”、“配置任务类型”、“添加数据”、“配置网络”等操作,在添加任务时添加刚才数据集确定添加。

4.1训练5.png

配置模型网络,选择显卡类型和是否启用分布式训练等。

4.1训练6.png

配置好后,可提交训练任务开始训练。

5、训练完成。

等待训练过程,完成后显示训练完成,用户可查看训练时长,训练结果的评估报告等信息。

4.1训练7.png

在评估报告中可查看本次训练过程的准确率,精确率等指标报告信息。

4.1训练8.png

校验模型

启动模型校验。

5.1校验.png

用训练好的模型对输入的文本进行相似度校验。

5.1校验1.png

部署模型

1、在模型管理中,可选择公有云和本地部署两种方式发布模型。

6.1部署.png

2、在模型部署中,用户按照自己情况填写信息完成模型部署。

6.1部署1.png

上一篇
用BML评价短文本相似度
下一篇
用BML实现序列标注