数据集下载
更新时间:2025-08-12
引言
飞桨AI Studio提供了丰富的数据集资源,涵盖计算机视觉、自然语言处理、语音识别等多个领域。本文档将详细介绍以下四种高效的下载方式,帮助您快速获取所需数据集资源。
- 使用命令行下载
- 使用 SDK 下载
- 使用 Git 下载
- 网页下载
1. 命令行下载
# 首次使用请先安装aistudio-sdk库
pip install --upgrade aistudio-sdk
aistudio download -h
usage: PROG download [-h] [--model MODEL] [--dataset DATASET] [--revision REVISION] [--local_dir LOCAL_DIR] [--include [INCLUDE ...]] [--exclude [EXCLUDE ...]] [--token TOKEN] [--max-workers MAX_WORKERS] [files ...]
positional arguments:
files Specify relative path to the repository file(s) to download.(e.g 'tokenizer.json', 'dir/decoder_model.onnx').
options:
-h, --help show this help message and exit
--model MODEL 模型ID,例如 myname/myrepoid
--dataset DATASET The id of the dataset to be downloaded. For download, the id of either a model or dataset must be provided.
--revision REVISION Revision of the entity.
--local_dir LOCAL_DIR
File will be downloaded to local location specified bylocal_dir, in this case.
--include [INCLUDE ...]
Glob patterns to match files to download.Ignored if file is specified
--exclude [EXCLUDE ...]
Glob patterns to exclude from files to download.Ignored if file is specified
--token TOKEN A User Access Token
--max-workers MAX_WORKERS
The maximum number of workers to download files.
1.1 下载整个repo(到默认cache地址)
# 在{repo_id}处填写需要下载的数据集repo_id,如myname/reponame,在数据集详情页获取
aistudio download --dataset {repo_id}
1.2 下载整个repo(到指定目录)
# 以下载整个repo到当前文件夹为例,在{repo_id}处填写需要下载的数据集repo_id,在local_dir后指定下载路径
aistudio download --dataset {repo_id} --local_dir ./
1.3 指定下载单个文件(到指定目录)
# 以下载README.md为例,在{repo_id}处填写需要下载的数据集repo_id,在local_dir后指定下载路径
aistudio download README.md --dataset {repo_id} --local_dir ./
1.4 下载私密数据集
下载私密数据集需要数据集所有者的Access Token,可在我的控制台--令牌处获取
# 以下载整个私密repo到当前文件夹为例,在{repo_id}处填写需要下载的数据集repo_id,在local_dir后指定下载路径,在token后填写您的Access Token
aistudio download --dataset {repo_id} --local_dir ./ --token {Your Access Token}
2. SDK下载(Python环境)
2.1 环境准备
# 首次使用需要安装aistudio-sdk库
pip install --upgrade aistudio-sdk
2.2 下载整个仓库
import os
# 如下载私密数据集,需要填写数据集所有者的aistudio-access-token, 在我的控制台--令牌处获取
# os.environ["AISTUDIO_ACCESS_TOKEN"] = "{access_token}"
from aistudio_sdk.snapshot_download import snapshot_download
res = snapshot_download(
# 填写数据集详情页面中的repo_id,如myname/reponame
repo_id='{repo_id}',
# 填写分支版本,如master
revision='master',
# 填写本地保存路径,如当前文件夹'./'
local_dir='./',
# 填写仓库类型为dataset,下载数据集文件时为必填项
repo_type='dataset'
)
print(res)
参数说明(snapshot_download):
字段名 | 必填 | 类型 | 描述 |
---|---|---|---|
repo_id | 是 | str | 数据集唯一标识符(如 myname/reponame),在数据集详情页获取 |
revision | 否 | str | 数据集的下载版本(分支/tag),默认 master |
allow_patterns | 否 | str,list | 指定要下载的文件,如文件名或文件扩展名 |
ignore_patterns | 否 | str,list | 指定要忽略下载的文件,如文件名或文件扩展名 |
local_dir | 否 | str | 指定数据集的下载存放目录,给定后本次下载的数据集文件将会被存储在 local_dir/数据集文件 |
token | 否 | str | 有下载权限用户的Access Token,前置已经登陆时,可缺省。在我的控制台--令牌获取 |
repo_type | 否 | str | 仓库类型:model, dataset,不填默认为model |
2.3 下载指定文件
import os
# 如下载私密数据集,需要填写数据集所有者的aistudio-access-token, 在我的控制台--令牌处获取
# os.environ["AISTUDIO_ACCESS_TOKEN"] = "{access_token}"
from aistudio_sdk.snapshot_download import snapshot_download
res = snapshot_download(
# 填写数据集详情页面中的repo_id,如myname/reponame
repo_id='{repo_id}',
# 填写分支版本,如master
revision='master',
# 下载指定文件,如下载README.md
allow_patterns='README.md',
# 填写本地保存路径,如当前文件夹'./'
local_dir='./',
repo_type='dataset'
)
print(res)
3. Git下载
3.1 下载公开数据集
# 请确认已经安装git-lfs (https://git-lfs.com)
git lfs install
# 克隆数据集到本地,在{repo_id}处填写需要下载的数据集repo_id
# 示例:git clone https://git.aistudio.baidu.com/myname/reponame.git
git clone https://git.aistudio.baidu.com/{repo_id}.git
3.2 下载私密数据集
# 请确认已经安装git-lfs (https://git-lfs.com)
git lfs install
# 克隆数据集到本地,在{token}处填写您的访问令牌,可以在我的控制台-令牌处获取,在{repo_id}处填写需要下载的数据集repo_id
# 示例:git clone https://6b27a165b085194b4651fbc5fe0902e2cd17bc@git.aistudio.baidu.com/myname/reponame.git
git clone https://{token}@git.aistudio.baidu.com/{repo_id}.git
3.3 跳过大文件(LFS)下载
如果需要跳过LFS大文件的下载,可以在git clone命令前添加GIT_LFS_SKIP_SMUDGE=1
GIT_LFS_SKIP_SMUDGE=1 git clone https://{token}git.aistudio.baidu.com/{repo_id}.git
4. 网页下载
- 访问飞桨AI Studio数据集
- 点击进入到目标数据集详情页
- 在“数据集文件” Tab中浏览数据集文件
- 点击文件右侧的下载按钮