创建数据集并导入

更新时间：2022-05-06

创建数据集

在训练模型之前，需要先在数据总览【创建数据集】。只需输入数据集名称、选择数据去重策略，即可创建一个空数据集。

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

创建数据集后，在「数据总览」页面中，找到该数据集，点击右侧操作列下的「导入」，即可进入导入数据页面。

您可以使用4种方案上传情感倾向分析的数据，分别为：

不论您上传无标注信息的数据或有标注信息的数据，都需要以下述格式要求进行上传。区别在于上传有标注信息的数据时，需要针对正向文本内容与负向文本内容分别进行上传。每个数据集里面默认包含正向（positive）标签和负向（negative）标签。

您可以通过以下三种方式进行本地数据的导入：

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录，该层目录下子文件目录及非相关内容（包括压缩包格式等）不导入。

需输入链接地址。分享链接导入的要求如下：

情感倾向分析任务中，可参考以下准备数据集的技巧：

情感倾向分析的数据集，默认只使用正向和负向两种标签的数据，所以数据集中无需创建标签，您只需准备对应情感倾向的标签数据即可。

每个标签建议至少需要准备50个以上的样本，如果想要较好的效果，建议准备1000-10000个文本样本，如果某些分类的文本具有相似性，需要增加更多文本。

训练集文本需要和实际场景要识别的文本内容的业务范围一致，且标签对应文本的数量分布一致。如训练集的业务范围是图书商品的情感倾向分析，而预计线上对应的场景或业务是电子产品的情感倾向分析，此时两者不一致，将会导致模型实际应用效果不佳
考虑实际应用场景有多种可能性，每个场景都需要准备相对应的训练数据，训练集若能覆盖的场景越多，模型的泛化能力则越强
建议对高频的业务场景尽量做到覆盖，并通过线上bad case来进行训练数据的优化

如果需要寻求第三方数据采集团队协助数据采集，请在百度云控制台内提交工单反馈