开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    文本实体关系抽取数据集上传

    在【数据总览】页面,可以看到自己创建的空数据集项目,选中数据集名称,点击对应项目中导入操作。您可以在文本实体关系分类任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。

    image.png

    在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式,目前对未标注数据提供了三种上传方式,对已标注数据仅提供了一种上传方式,

    未标注数据上传方式:

    • 压缩包方式
    • txt文件
    • Excel文件

    以下分别详细介绍以上三种上传方式:

    以压缩包方式上传

    • 压缩包内每一个txt文件为一个样本,文本文件编码须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断
    • 压缩包的格式为zip;压缩包最大不超过5G;详见数据样例

    以txt文件上传

    • 文本实体关系抽取数据txt文件中,每一行为一个样本,文本文件的编码格式须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断,详见数据样例

    以Excel文件上传

    • 如果您上传的文本实体关系抽取数据未Excel文件,那么要求您的Excel文件每行为一个样本,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断。注意,表头作为首行将被系统忽略。
    • 文件格式支持xlsx格式,单次可上传100个文件,详见数据样例

    已标注数据上传方式:

    针对已标注的文本实体关系抽取数据集上传目前本平台仅支持Excel文件格式上传。

    以Excel文件导入

    • 要求上传的Excel文件,首行为表头,表头表示每一列代表的数据类型,依次为“文本内容、实体关系1、实体关系2、..”。其中实体关系内格式为:{实体1位置,实体1类别},{实体2位置,实体2类别},实体关系。每个标注内均以英文逗号间隔,且内容顺序不可变。详见数据样例
    • 第二行起每行为一个样本,每个样本文本内容字符数不得超过512个字符(包括汉字、符号、数字等),超出将报错;
    • 目前Excel文件格式支持xlsx格式,单次可上传100个文件;文本样例如下。
    文本内容 实体关系1
    今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 {[5,7],ORG},{[9,11],ORG},lead
    上一篇
    数据集创建
    下一篇
    数据去重策略