9.快速使用公有云平台训练模型
快速使用EasyDL来训练一个模型
EasyDL是基于百度大脑文心领先的语义理解技术,为NLP零基础或追求高效率开发的企业用户和个人开发者提供整套的NLP定制与应用能力。
以下内容为使用EasyDL来快速训练一个文本分类单标签模型:
1、创建模型
在EasyDL页面选中文本分类单标签任务,进入具体任务页面。点击左侧目录【创新模型】,按照指引点击下一步完成模型创建。点击左侧目录【我的模型】即可看到已创建的模型。
2、创建数据集
选中左侧目录中【数据总览】,点击创建数据集,按照指引完成填写,完成后可以在【数据总览】目录下看到已创建的数据集。

选中已创建的数据集,在相应数据集对应的操作栏中点击导入,上传您的数据内容。在导入数据时您可以根据您的数据集是否已标注,选择相应的数据标注状态,在导入方式您可以选择本地导入、Bos目录导入、分享链接导入、平台已有数据集任意一种导入方式,根据您的数据格式选择相应的上传方式。选择完成后点击确认并返回,将返回到数据总览目录下,您可以在该数据集下查看最近导入状态。导入完成后,标注状态栏将显示相应的数据标注数量。导入数据后,您可以点击操作栏中"标注"功能前往标注。

3、训练模型 在创建完数据集与文本分类单标签模型后,即可开始模型的训练。点击左侧目录的【训练模型】,在选择模型选项中,选择已创建的文本分类单标签的模型,按照您的需求对训练配置进行设置,在添加数据集部分,您可以添加您创建的数据集,需要注意,训练模型阶段的数据集需全部为已标注的状态。选择训练环境后即可点击开始训练。至此,文本分类单标签的模型开始训练。

选中左侧目录【我的模型】即可查看提交训练的模型的训练状态,当模型训练完成后,您可以查看该模型的模型效果。

快速使用BML来训练一个模型
BML是适用于NLP初学者及NLP专业工程师的全功能AI开发平台,为企业及个人开发者提供机器学习和深度学习一站式AI开发服务,并提供高性价比的算力资源,助力企业快速构建高精度AI应用。
以下内容为使用BML来快速训练一个文本分类单标签模型:
1、创建数据集
选中左侧目录中【数据总览】,点击创建数据集,按照指引完成填写,完成后可以在【数据总览】目录下看到已创建的数据集。

选中已创建的数据集,在相应数据集对应的操作栏中点击导入,上传您的数据内容。在导入数据时您可以根据您的数据集是否已标注,选择相应的数据标注状态,在导入方式您可以选择本地导入、Bos目录导入、分享链接导入、平台已有数据集任意一种导入方式,根据您的数据格式选择相应的上传方式。选择完成后点击确认并返回,将返回到数据总览目录下,您可以在该数据集下查看最近导入状态。导入完成后,标注状态栏将显示相应的数据标注数量。导入数据后,您可以点击操作栏中"标注"功能前往标注。

2、创建模型
选中左侧目录导航栏中【脚本调参】,点击新建按钮,将弹出新建脚本调参。首先需要您先完善个人信息,点击下一步后输入模型名称,选择自然语言处理方向,选中文本分类单标签任务,按照指引完成模型的创建。


完成模型的创建后可以在脚本调参内容页看到,在相应的模型下,点击"新建任务"进行任务的具体配置。

3、配置任务
- 在新建任务的面板中,可查看相关项目“基本信息”、“配置任务类型”、“添加数据”、“配置任务”等操作,如下图:

- 配置任务类型时,您可以看到增量训练有一个开关选项。首次训练任务时,默认关闭即可。

- 训练任务,我们需要添加模型训练使用的训练集和模型评测的评测集,如果您没有特别创建评测集,可以将评测集开关设置为“OFF”,系统将从训练集中取出一定比例的数据作为评测集。如果您有准备评测集,则可以将评测集开关设置为“ON”,并上传对应的数据集即可,如下图:

- 在上传数据的时候,您需要注意,如您打开了增量训练的开关,那么将直接选中您选中的基准任务的使用的数据集。点击查看基准任务标签时,您可以看到基准任务数据集的标签信息,此时您选择增量训练的数据集,您可保留基准任务数据集,也可添加新数据集,但新数据标签须与基准任务保持一致。

- 配置网络过程中,您可以选择使用预训练模型ERNIE2.0对应的三个版本:ERNIE2.0_Base、ERNIE2.0_Large和ERNIE2.0_Tiny。本章节演示创建流程,先选择“ERNIE2.0_Tiny”,并选择TextCNN网络。 EasyDL专业版目前支持飞桨(Paddle Paddle)深度学习框架,自然语言训练任务支持的框架脚本为paddle-fluid-v1.6.1。了解飞桨

- 平台提供了脚本编辑的工具,您可以直接在平台点击“立即编辑”进行脚本编辑,如下图:

- 在配置资源部分,目前平台已提供GPU V100、P40两种机型。选中您所需的机型,根据需要设置计算节点数,如您选择多节点进行分布式训练,可有效提升训练速度,节点数越多训练效率越高。在最长训练设置部分,目前文本任务方向没有时间上线,建议您尽量设置较长时长,注意如您使用ERNIE预训练模型,建议训练时长不低于4小时。

- 点击提交训练任务,任务将在平台提供的GPU训练资源上进行训练。

- 提交成功的任务,将会在项目列表中展示状态。

至此,使用BML快速训练文本分类单标签的任务已开启训练。
