资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据预览

引言

飞桨AI Studio为数据集提供数据预览功能,方便用户快速了解数据集构成,本文档将详细介绍以下数据预览功能,帮助您快速开启数据预览:

  • 生成数据预览
  • 更新数据预览
  • 下载示例

1. 生成数据预览

1.1 上传支持预览的数据文件

  1. 支持预览的数据文件类型:
类型 格式后缀
JSON .jsonl, .json
CSV .csv, .tsv
Parquet .parquet
Text .txt
Images .jpg, .jpeg, .png, .tiff, .webp
Audio .aiff, .flac, .mp3, .ogg, .wav
Video .mp4, .mov, .avi

其中Image/Audio/Video类型的数据需在JSON/CSV文件中指定数据地址进行预览,数据地址可以是以下两种形式:

  1. 预览数据量:每个数据集的前 5GB / 前1000条数据

1.2 编辑dataset_infos.json文件

上传支持预览的文件后,需正确编辑数据集文件列表中的dataset_infos.json文件才能成功生成预览

1.2.1 dataset_infos.json文件模版

{
  "default": {                -- 数据集名称
    "features": {             -- 数据集各字段类型设置
      "text_1": {             -- 字段名
        "_type": "Value"      -- 字段类型,支持Value、Image、Audio、Video
      },
      "image_1": {
        "_type": "Image"
      },
      "audio_1": {
        "_type": "Audio"
      },
      "video_1": {
        "_type": "Video"
      }
    },
    "splits": {                                 -- 数据集用途划分
      "train": {                                -- 数据集用途
        "path": "Please input your file path"   -- 数据集路径
      },
      "test": {              
        "path": "Please input your file path"   
      }
    }
  }
}

dataset_infos.json文件模版参数详解:

参数名 可修改 说明
default 数据集名称,作为数据预览页“子数据集”中的展示名称
features 数据字段类型设置,在该参数中填写数据字段名与对应的字段类型
text_1 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败
image_1 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败
audio_1 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败
video_1 对应数据文件中的字段名,例如JSON文件中的根级字段名 / CSV文件的表头名。名称需严格一致,否则会生成失败
_type 字段类型,填写该字段对应的数据类型:Value(文字)、Image(图像)、Audio(音频)、Video(视频)
splits 数据集用途划分,在该参数中填写数据文件用途与文件路径
train 数据文件用途,作为数据预览页“用途”中的展示名称,通常为train、test、validation
path 数据文件路径,填写数据文件在仓库中的路径,若该文件在根目录下,则仅需填写文件名称
test 数据文件用途,作为数据预览页“用途”中的展示名称,通常为train、test、validation

1.2.2 示例

数据集信息:

子数据集名称 数据文件格式 数据类型 原始数据 预览结果
dataset1 json 文本
dataset2 txt 文本
dataset3 csv 文本+视频

dataset_infos.json文件:

{
  "dataset1": {
    "features": {
      "id": {
        "_type": "Value"
      },
      "sample_id": {
        "_type": "Value"
      },
      "normalizedTag": {
        "_type": "Value"
      },
      "messages": {
        "_type": "Value"
      }
    },
    "splits": {
      "train": {
        "path": "json_demo.json"
      }
    }
  },
  "dataset2": {      
    "features": {
      "text1": {           
        "_type": "Value"      
      }
    },
    "splits": {
      "train": {              
        "path": "txt_demo.txt"
      }
    }
  },
  "dataset3": {
    "features": {
      "ID": {
        "_type": "Value"
      },
      "Input Video": {
        "_type": "Video"
      }
    },
    "splits": {
      "demo": {
        "path": "csv_demo.csv"
      }
    }
  }
}

1.3 生成数据预览

正确完成 1.1 和 1.2 后,在数据预览页中点击“立即生成预览”按钮即可开启数据预览任务,等待系统执行完成后即可查看数据预览内容。

2. 更新数据预览

当您成功生成数据预览后,若新增数据文件,正确填写dataset_infos.json文件后,即可更新数据预览内容:

3. 下载示例

成功生成数据预览内容后,可下载预览数据文件:

注意:下载的示例文件中,图片、音频、视频类数据以bos链接形式存在,链接有效期为30天,30天后需重新下载示例文件查看。

上一篇
数据集
下一篇
数据集上传