数据预览
更新时间:2025-08-13
引言
飞桨AI Studio为数据集提供数据预览功能,方便用户快速了解数据集构成,本文档将详细介绍以下数据预览功能,帮助您快速开启数据预览:
- 生成数据预览
- 更新数据预览
- 下载示例
1. 生成数据预览
1.1 上传支持预览的数据文件
- 支持预览的数据文件类型:
类型 | 格式后缀 |
---|---|
JSON | .jsonl, .json |
CSV | .csv, .tsv |
Parquet | .parquet |
Text | .txt |
Images | .jpg, .jpeg, .png, .tiff, .webp |
Audio | .aiff, .flac, .mp3, .ogg, .wav |
Video | .mp4, .mov, .avi |
其中Image/Audio/Video类型的数据需在JSON/CSV文件中指定数据地址进行预览,数据地址可以是以下两种形式:
- 预览数据量:每个数据集的前 5GB / 前1000条数据
1.2 编辑dataset_infos.json文件
上传支持预览的文件后,需正确编辑数据集文件列表中的dataset_infos.json文件才能成功生成预览
1.2.1 dataset_infos.json文件模版
{
"default": { -- 数据集名称
"features": { -- 数据集各字段类型设置
"text_1": { -- 字段名
"_type": "Value" -- 字段类型,支持Value、Image、Audio、Video
},
"image_1": {
"_type": "Image"
},
"audio_1": {
"_type": "Audio"
},
"video_1": {
"_type": "Video"
}
},
"splits": { -- 数据集用途划分
"train": { -- 数据集用途
"path": "Please input your file path" -- 数据集路径
},
"test": {
"path": "Please input your file path"
}
}
}
}
dataset_infos.json文件模版参数详解:
参数名 | 说明 | |
---|---|---|
default | 是 | 数据集名称,作为数据预览页“子数据集”中的展示名称 |
features | 否 | 数据字段类型设置,在该参数中填写数据字段名与对应的字段类型 |
text_1 | 是 | 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败 |
image_1 | 是 | 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败 |
audio_1 | 是 | 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败 |
video_1 | 是 | 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败 |
_type | 否 | 字段类型,填写该字段对应的数据类型:Value(文字)、Image(图像)、Audio(音频)、Video(视频) |
splits | 否 | 数据集用途划分,在该参数中填写数据文件用途与文件路径 |
train | 是 | 数据文件用途,作为数据预览页“用途”中的展示名称,通常为train、test、validation |
path | 否 | 数据文件路径,填写数据文件在仓库中的路径,若该文件在根目录下,则仅需填写文件名称 |
test | 是 | 数据文件用途,作为数据预览页“用途”中的展示名称,通常为train、test、validation |
1.2.2 示例
数据集信息:
原始数据 | 预览结果 | |||
---|---|---|---|---|
dataset1 | json | 文本 | ||
dataset2 | txt | 文本 | ||
dataset3 | csv | 文本+视频 |
dataset_infos.json文件:
{
"dataset1": {
"features": {
"id": {
"_type": "Value"
},
"sample_id": {
"_type": "Value"
},
"normalizedTag": {
"_type": "Value"
},
"messages": {
"_type": "Value"
}
},
"splits": {
"train": {
"path": "json_demo.json"
}
}
},
"dataset2": {
"features": {
"text1": {
"_type": "Value"
}
},
"splits": {
"train": {
"path": "txt_demo.txt"
}
}
},
"dataset3": {
"features": {
"ID": {
"_type": "Value"
},
"Input Video": {
"_type": "Video"
}
},
"splits": {
"demo": {
"path": "csv_demo.csv"
}
}
}
}
1.3 生成数据预览
正确完成 1.1 和 1.2 后,在数据预览页中点击“立即生成预览”按钮即可开启数据预览任务,等待系统执行完成后即可查看数据预览内容。
2. 更新数据预览
当您成功生成数据预览后,若新增数据文件,正确填写dataset_infos.json文件后,即可更新数据预览内容:
3. 下载示例
成功生成数据预览内容后,可下载预览数据文件:
注意:下载的示例文件中,图片、音频、视频类数据以bos链接形式存在,链接有效期为30天,30天后需重新下载示例文件查看。