导出数据集
更新时间:2025-02-27
功能介绍
用于将Dataset数据集导出,支持多种导出方式,如导出到文件或文件夹、导出到本地数据源、导出到千帆平台数据集等。
注意事项
- 本文功能只适用于Python SDK。
- 调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。
调用示例
导出文件
import os
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
from qianfan.dataset import Dataset
# 导出到本地文件
ds.save(data_file="path/to/local_file.csv")
# 导出到千帆平台
ds.save(qianfan_dataset_id="your_dataset_strid")
# 或者导出到它导入的地方(覆盖操作)
ds.save()
导出文件夹
import os
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
from qianfan.dataset import Dataset
from qianfan.dataset.data_source import FormatType
ds = Dataset.load(
data_file="path/to/dataset_file_without_suffix",
file_format=FormatType.Json
)
# 自动为导出的文件进行命名,并且按照指定的格式导出(file_format默认为 txt)
# 需要文件夹已存在,若不存在则会保存为文件
ds.save(
data_file="path/to/folder",
file_format=FormatType.Json
)
导出到本地数据源
import os
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
from qianfan.dataset import Dataset, FileDataSource
from qianfan.dataset.data_source import FormatType
file_source = FileDataSource(
path="local_file",
file_format=FormatType.Json
)
ds = Dataset.load(
data_file="path/to/dataset_file_without_suffix",
file_format=FormatType.Json
)
ds.save(file_source)
导出到千帆平台
import os
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
# 导出并附加到原本导入的数据集
ds_qianfan.save()
# 导出并附加到指定数据集
ds_qianfan.save(qianfan_dataset_id="your_dataset_strid")
# 导出并创建新数据集
bos_bucket_name = "your bucket name"
bos_bucket_file_path = "your bucket file path"
ds_qianfan.save(
qianfan_dataset_create_args={
"name": "example_name",
"template_type": DataTemplateType.NonSortedConversation,
"storage_type": DataStorageType.PrivateBos
storage_id=bos_bucket_name,
storage_path=bos_bucket_file_path,
}
)
返回示例
True
参数说明
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
destination | DataSource | 否 | 数据导出源,说明: (1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args (2)相关数据集来源不填写,默认覆盖源数据集 |
data_file | str | 否 | 数据集本地文件路径,说明: (1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args (2)如果是导出到本地文件或文件夹,该字段必填 |
qianfan_dataset_id | str | 否 | 数据集版本ID,说明: (1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args;如果是导出到千帆平台某数据集,该字段必填 (2)可以通过以下任一方式获取该字段值: · 方式一,通过调用创建数据集接口,返回的datasetId字段获取 · 方式二,在千帆控制台-数据集管理列表页面,点击详情,查看版本信息,如下图所示: ![]() |
qianfan_dataset_create_args | Dict[str: Any] | 否 | 导出到千帆平台全新的数据集 (1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args (2)如果是导出到千帆平台全新的数据集中,此参数必填 |
bos_source_args | Dict[str, Any] | 否 | 在指定 BOS 上创建文件的参数,说明: (1)以下数据集来源参数相关,需至少填写一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args (2)仅支持上传到个人BOS,不支持上传公共BOS (3)使用的 BOS 必须是位于北京区域的 BOS 可以向 save 函数中传递 sup_storage_id sup_storage_path 和 sup_storage_region 参数,指定用作中间存储的私有 BOS 信息 |
schema | Schema | 否 | 用于验证数据集是否符合相关限制,如无标注非排序数据等 |
replace_source | bool | 否 | 是否替换原始源,默认为 False。说明:有些操作如数据集是本地数据源,现在希望保存在千帆平台,设置这个参数为true,后续这个数据集指的是千帆平台的数据源,不是本地的数据源 |
kwargs | Any | 否 | 可选参数 |
qianfan_dataset_create_args 说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
name | str | 是 | 千帆平台数据集名称 |
template_type | Optional[DataTemplateType, int] | 是 | 千帆平台数据集模板类型,可选值: · DataTemplateType.NonSortedConversation:值为2000,表示非排序对话 · DataTemplateType.SortedConversation:数值为2001,表示含排序对话 · DataTemplateType.GenericText:数值为40100,表示泛文本 · DataTemplateType.QuerySet:数值为40200,表示Query查询 · DataTemplateType.Text2Image:数值为70500,表示文生图 |
storage_type | Optional[DataStorageType, str] | 是 | 千帆平台数据集存储类型,可选值如下: · DataStorageType.PublicBos:值为sysBos,表示平台公共的 Bos · DataStorageType.PrivateBos:值为usrBos,表示用户私有的 Bos |
返回参数
名称 | 类型 | 描述 |
---|---|---|
无 | bool | 数据集是否成功保存 |