资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据集下载

引言

飞桨AI Studio提供了丰富的数据集资源,涵盖计算机视觉、自然语言处理、语音识别等多个领域。本文档将详细介绍以下四种高效的下载方式,帮助您快速获取所需数据集资源。

  • 使用命令行下载
  • 使用 SDK 下载
  • 使用 Git 下载
  • 网页下载

1. 命令行下载

# 首次使用请先安装aistudio-sdk库
pip install --upgrade aistudio-sdk
aistudio download -h 
usage: PROG download [-h] [--model MODEL] [--dataset DATASET] [--revision REVISION] [--local_dir LOCAL_DIR] [--include [INCLUDE ...]] [--exclude [EXCLUDE ...]] [--token TOKEN] [--max-workers MAX_WORKERS] [files ...]

positional arguments:
  files                 Specify relative path to the repository file(s) to download.(e.g 'tokenizer.json', 'dir/decoder_model.onnx').

options:
  -h, --help            show this help message and exit
  --model MODEL         模型ID,例如 myname/myrepoid
  --dataset DATASET     The id of the dataset to be downloaded. For download, the id of either a model or dataset must be provided.
  --revision REVISION   Revision of the entity.
  --local_dir LOCAL_DIR
                        File will be downloaded to local location specified bylocal_dir, in this case.
  --include [INCLUDE ...]
                        Glob patterns to match files to download.Ignored if file is specified
  --exclude [EXCLUDE ...]
                        Glob patterns to exclude from files to download.Ignored if file is specified
  --token TOKEN         A User Access Token
  --max-workers MAX_WORKERS
                        The maximum number of workers to download files.

1.1 下载整个repo(到默认cache地址)

# 在{repo_id}处填写需要下载的数据集repo_id,如myname/reponame,在数据集详情页获取
aistudio download --dataset {repo_id}

1.2 下载整个repo(到指定目录)

# 以下载整个repo到当前文件夹为例,在{repo_id}处填写需要下载的数据集repo_id,在local_dir后指定下载路径
aistudio download --dataset {repo_id} --local_dir ./

1.3 指定下载单个文件(到指定目录)

# 以下载README.md为例,在{repo_id}处填写需要下载的数据集repo_id,在local_dir后指定下载路径
aistudio download README.md --dataset {repo_id} --local_dir ./

1.4 下载私密数据集

下载私密数据集需要数据集所有者的Access Token,可在我的控制台--令牌处获取

# 以下载整个私密repo到当前文件夹为例,在{repo_id}处填写需要下载的数据集repo_id,在local_dir后指定下载路径,在token后填写您的Access Token
aistudio download --dataset {repo_id} --local_dir ./ --token {Your Access Token}

2. SDK下载(Python环境)

2.1 环境准备

# 首次使用需要安装aistudio-sdk库
pip install --upgrade aistudio-sdk

2.2 下载整个仓库

import os
# 如下载私密数据集,需要填写数据集所有者的aistudio-access-token, 在我的控制台--令牌处获取
# os.environ["AISTUDIO_ACCESS_TOKEN"] = "{access_token}"
from aistudio_sdk.snapshot_download import snapshot_download

res = snapshot_download(
    # 填写数据集详情页面中的repo_id,如myname/reponame
    repo_id='{repo_id}',
    # 填写分支版本,如master
    revision='master',
    # 填写本地保存路径,如当前文件夹'./'
    local_dir='./',
    # 填写仓库类型为dataset,下载数据集文件时为必填项
    repo_type='dataset'
)
print(res)

参数说明(snapshot_download):

字段名 必填 类型 描述
repo_id str 数据集唯一标识符(如 myname/reponame),在数据集详情页获取
revision str 数据集的下载版本(分支/tag),默认 master
allow_patterns str,list 指定要下载的文件,如文件名或文件扩展名
ignore_patterns str,list 指定要忽略下载的文件,如文件名或文件扩展名
local_dir str 指定数据集的下载存放目录,给定后本次下载的数据集文件将会被存储在 local_dir/数据集文件
token str 有下载权限用户的Access Token,前置已经登陆时,可缺省。在我的控制台--令牌获取
repo_type str 仓库类型:model, dataset,不填默认为model

2.3 下载指定文件

import os
# 如下载私密数据集,需要填写数据集所有者的aistudio-access-token, 在我的控制台--令牌处获取
# os.environ["AISTUDIO_ACCESS_TOKEN"] = "{access_token}"
from aistudio_sdk.snapshot_download import snapshot_download

res = snapshot_download(
    # 填写数据集详情页面中的repo_id,如myname/reponame
    repo_id='{repo_id}',
    # 填写分支版本,如master
    revision='master',
    # 下载指定文件,如下载README.md
    allow_patterns='README.md',
    # 填写本地保存路径,如当前文件夹'./'
    local_dir='./',
    repo_type='dataset'
)
print(res)

3. Git下载

3.1 下载公开数据集

# 请确认已经安装git-lfs (https://git-lfs.com)
git lfs install
# 克隆数据集到本地,在{repo_id}处填写需要下载的数据集repo_id
# 示例:git clone https://git.aistudio.baidu.com/myname/reponame.git
git clone https://git.aistudio.baidu.com/{repo_id}.git

3.2 下载私密数据集

# 请确认已经安装git-lfs (https://git-lfs.com)
git lfs install
# 克隆数据集到本地,在{token}处填写您的访问令牌,可以在我的控制台-令牌处获取,在{repo_id}处填写需要下载的数据集repo_id
# 示例:git clone https://6b27a165b085194b4651fbc5fe0902e2cd17bc@git.aistudio.baidu.com/myname/reponame.git
git clone https://{token}@git.aistudio.baidu.com/{repo_id}.git

3.3 跳过大文件(LFS)下载

如果需要跳过LFS大文件的下载,可以在git clone命令前添加GIT_LFS_SKIP_SMUDGE=1

GIT_LFS_SKIP_SMUDGE=1 git clone https://{token}git.aistudio.baidu.com/{repo_id}.git

4. 网页下载

  1. 访问飞桨AI Studio数据集
  2. 点击进入到目标数据集详情页
  3. 在“数据集文件” Tab中浏览数据集文件
  4. 点击文件右侧的下载按钮

上一篇
数据集上传
下一篇
学习中心