资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导出数据集

功能介绍

用于将Dataset数据集导出,支持多种导出方式,如导出到文件或文件夹、导出到本地数据源、导出到千帆平台数据集等。

注意事项

  • 本文功能只适用于Python SDK。
  • 调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程

调用示例

导出文件

import os 

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

from qianfan.dataset import Dataset

# 导出到本地文件
ds.save(data_file="path/to/local_file.csv")

# 导出到千帆平台
ds.save(qianfan_dataset_id="your_dataset_strid")

# 或者导出到它导入的地方(覆盖操作)
ds.save()

导出文件夹

import os 

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

from qianfan.dataset import Dataset
from qianfan.dataset.data_source import FormatType

ds = Dataset.load(
  data_file="path/to/dataset_file_without_suffix",
  file_format=FormatType.Json
)

# 自动为导出的文件进行命名,并且按照指定的格式导出(file_format默认为 txt)
# 需要文件夹已存在,若不存在则会保存为文件
ds.save(
  data_file="path/to/folder",
  file_format=FormatType.Json
)

导出到本地数据源

import os 

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

from qianfan.dataset import Dataset, FileDataSource
from qianfan.dataset.data_source import FormatType

file_source = FileDataSource(
  path="local_file",
  file_format=FormatType.Json
)

ds = Dataset.load(
  data_file="path/to/dataset_file_without_suffix",
  file_format=FormatType.Json
)

ds.save(file_source)

导出到千帆平台

import os 

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

# 导出并附加到原本导入的数据集
ds_qianfan.save()

# 导出并附加到指定数据集
ds_qianfan.save(qianfan_dataset_id="your_dataset_strid")

# 导出并创建新数据集
bos_bucket_name = "your bucket name"
bos_bucket_file_path = "your bucket file path"

ds_qianfan.save(
  qianfan_dataset_create_args={
    "name": "example_name",
    "template_type": DataTemplateType.NonSortedConversation,
    "storage_type": DataStorageType.PrivateBos
    storage_id=bos_bucket_name,
    storage_path=bos_bucket_file_path,
  }
)

返回示例

True

参数说明

请求参数

名称 类型 必填 描述
destination DataSource 数据导出源,说明:
(1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args
(2)相关数据集来源不填写,默认覆盖源数据集
data_file str 数据集本地文件路径,说明:
(1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args
(2)如果是导出到本地文件或文件夹,该字段必填
qianfan_dataset_id str 数据集版本ID,说明:
(1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args;如果是导出到千帆平台某数据集,该字段必填
(2)可以通过以下任一方式获取该字段值:
· 方式一,通过调用创建数据集接口,返回的datasetId字段获取
· 方式二,在千帆控制台-数据集管理列表页面,点击详情,查看版本信息,如下图所示:
image.png
qianfan_dataset_create_args Dict[str: Any] 导出到千帆平台全新的数据集
(1)数据集来源参数相关,只能填写以下其中一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args
(2)如果是导出到千帆平台全新的数据集中,此参数必填
bos_source_args Dict[str, Any] 在指定 BOS 上创建文件的参数,说明:
(1)以下数据集来源参数相关,需至少填写一个:destination、source、data_file、qianfan_dataset_id、qianfan_dataset_create_args、bos_load_args
(2)仅支持上传到个人BOS,不支持上传公共BOS
(3)使用的 BOS 必须是位于北京区域的 BOS
可以向 save 函数中传递 sup_storage_id sup_storage_path 和 sup_storage_region 参数,指定用作中间存储的私有 BOS 信息
schema Schema 用于验证数据集是否符合相关限制,如无标注非排序数据等
replace_source bool 是否替换原始源,默认为 False。说明:有些操作如数据集是本地数据源,现在希望保存在千帆平台,设置这个参数为true,后续这个数据集指的是千帆平台的数据源,不是本地的数据源
kwargs Any 可选参数

qianfan_dataset_create_args 说明

名称 类型 必填 描述
name str 千帆平台数据集名称
template_type Optional[DataTemplateType, int] 千帆平台数据集模板类型,可选值:
· DataTemplateType.NonSortedConversation:值为2000,表示非排序对话
· DataTemplateType.SortedConversation:数值为2001,表示含排序对话
· DataTemplateType.GenericText:数值为40100,表示泛文本
· DataTemplateType.QuerySet:数值为40200,表示Query查询
· DataTemplateType.Text2Image:数值为70500,表示文生图
storage_type Optional[DataStorageType, str] 千帆平台数据集存储类型,可选值如下:
· DataStorageType.PublicBos:值为sysBos,表示平台公共的 Bos
· DataStorageType.PrivateBos:值为usrBos,表示用户私有的 Bos

返回参数

名称 类型 描述
bool 数据集是否成功保存