资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看清洗任务列表

接口描述

本接口用于查看清洗任务列表。

注意事项

(1)通过API查看清洗任务列表,和千帆控制台页面展示字段不同:

  • 本文API参数有的字段,可能在千帆控制台页面无
  • 千帆控制台页面的部分字段,可能在本文API参数中无
  • 后续会持续完善API功能,请关注API文档更新

(2)权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
  • 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy
  • 运维操作千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataOperateAccessPolicy
  • 只读访问千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataReadAccessPolicy

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /wenxinworkshop/etl/list HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "offset": 0,
	"pageSize": 10
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Body参数
名称 类型 必填 描述
offset int 分页偏移,默认0
pageSize int 分页大小,范围[1,20]

响应头域

除公共头域外,无其它特殊头域。

响应参数

说明:返回的部分字段如下,未说明的字段暂无需关注。

名称 类型 说明
log_id string 操作记录id
result object 返回结果
status int 状态码
success bool 是否操作成功
· true:成功
· false:失败

返回结果result说明

名称 类型 说明
processingCount int 正在清洗的任务数
items obejct[] 任务列表
total int 任务总数

item说明

名称 类型 说明
etlId int 清洗任务序号,注意:该字段后续将废弃,如果使用了此字段,建议变更为etlStrId字段
etlStrId string 清洗任务序号
startTime string 开始时间
sourceDatasetName string 清洗前源数据集名称
destDatasetName string 清洗后目标数据集名称
operatorNameList string[] 清洗使用的算子,
(1)Clean清洗阶段算子
· remove_emoji:去除文档中的表情
· remove_invisible_character:移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围
· replace_uniform_whitespace:将不同的unicode空格比如  u2008,转成正常的空格
· remove_non_meaning_characters:去除乱码和无意义的unicode
· replace_traditional_chinese_to_simplified:繁体转简体,如“不經意,妳的笑容”清洗成“不经意,你的笑容”
· remove_web_identifiers:移除文档中的html标签,如<html>,<dev>,<p>
(2)Filter过滤阶段算子
· filter_check_number_words:检查文档的词数目,词数目不在指定范围会被过滤掉,如中文[1,10000]
· filter_check_word_repetition_removal:检查文档的词重复率,如果词重复率太高,意味着文档中重复的词太多,文档会被过滤掉
· filter_check_character_repetition_removal:检查文档的字重复率,如果字重复率太高,意味着文档中重复的字太多,文档会被过滤掉
· filter_check_special_characters:检查文档的特殊字符率,如果特殊字符率太高,意味着文档中特殊字符太多,文档会被过滤掉
·filter_check_flagged_words:检查文档的色情暴力词率,如果色情暴力词率太高,文档会被过滤掉
· filter_check_lang_id:检查文档的语言概率,如果语言概率太低,文档会被过滤掉
· filter_check_perplexity:检查文档的困惑度,如果困惑度太高,文档会被过滤掉
(3)Deduplication去重阶段算子
· deduplication_simhash:根据海明距离计算文档相似度, 相似度<=海明距离,认为两个文档相似。
(4)Desensitization 去隐私阶段算子
· replace_emails:去除email地址
· replace_ip:去除IPv4 或者 IPv6 地址
· replace_identifier:去除数字和字母数字标识符,如电话号码、信用卡号、十六进制散列等,同时跳过年份和简单数字的实例
sourceDatasetId int 源数据集版本id,注意:此字段后续将废弃,如果使用了此字段,建议变更为sourceDatasetStrId字段
sourceDatasetStrId string 源数据集版本字符串id
destDatasetId int 目标数据集版本id,注意:此字段后续将废弃,如果使用了此字段,建议变更为destDatasetStrId字段
destDatasetStrId string 目标数据集版本字符串id
entityCount int 样本数量
entityType int 样本类型,说明:
· 1:图片
· 2:文本
result object 清洗结果
processStatus int 清洗状态信息,说明:
· 0:无状态,表示没有任务
· 1:运行中
· 2:已完成
· 3:任务终止
· 4:任务失败
· 5:任务暂停清洗状态信息
status int 状态:
· 0:正常
· 1:删除
errCode int 未启用,是否清洗错误都为0
errMsg string 清洗错误时返回"failed"
createTime string 创建时间
finishTime string 完成时间
modifyTime string 更改时间

清洗结果result说明

名称 类型 描述
RET_OK int 清洗结果
pipeline_stage_result object pipeline状态结果
export_entity_num int 导出样本数量
remaining_entity int 剩余样本
unprocessed_entity int 尚未清洗样本
remove_emoji object 里面只有一个int字段,processed_entity:某个算子被执行的行数
remove_url object 只有一个int字段,processed_entity:某个算子被执行的行数
trad_to_simp object 只有一个int字段,processed_entity:某个算子被执行的行数
remove_id_card object 只有一个int字段,processed_entity:某个算子被执行的行数
remove_phone_number object 只有一个int字段,processed_entity:某个算子被执行的行数
remove_exception_char object 只有一个int字段,processed_entity:某个算子被执行的行数
replace_sim2trad object 只有一个int字段,processed_entity:某个算子被执行的行数
replace_trad2sim object 只有一个int字段,processed_entity:某个算子被执行的行数
replace_upper2lower object 只有一个int字段,processed_entity:某个算子被执行的行数
cut object 裁剪,说明:
· remaining_entity:剩余样本数量
· unprocessed_entity:尚未清洗样本
failReason string 失败原因
pauseReason string 暂停原因

pipeline_stage_result说明

名称 类型 描述
clean object 数据清洗clean阶段执行结果
deduplication object 数据清洗deduplication阶段执行结果
desensitization object 数据清洗desensitization阶段执行结果
filter object 数据清洗filter阶段执行结果

执行结果说明

clean、deduplication、desensitization、filter 阶段执行结果字段相同,如下

名称 类型 描述
status string 数据清洗某阶段执行结果,例:"Success"
operator_count int 该阶段算子数
entity_match_count int 匹配到的样本数量
each_operator_result object[] 具体到算子的清洗结果列表

each_operator_result 说明

名称 类型 描述
name string 算子名称
remaining_count int 通过该算子清洗后剩余样本数
drop_count int 通过该算子清洗掉的样本数

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/wenxinworkshop/etl/list' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a52640015de61bc55ca2e6d8cc23d080016e374525543' \ 
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \ 
--data '{
	"offset": 0,
	"pageSize": 10
}'

响应示例

{
    "log_id": "wwcm30w7exxexyqx",
    "result": {
        "processingCount": 0,
        "items": [
            {
                "etlId": 275,
                "etlStrId": "task-992515vjv503t94c",
                "startTime": "2023-11-06 16:03:23",
                "sourceDatasetName": "4train_generic_usrBos-V1",
                "destDatasetName": "4train_generic_sysBos-V1",
                "operatorNameList": [
                    "remove_invisible_character",
                    "replace_uniform_whitespace",
                    "remove_non_meaning_characters",
                    "replace_traditional_chinese_to_simplified",
                    "remove_web_identifiers",
                    "remove_emoji",
                    "deduplication_simhash",
                    "replace_emails",
                    "replace_ip",
                    "replace_identifier",
                    "filter_check_number_words",
                    "filter_check_character_repetition_removal",
                    "filter_check_word_repetition_removal",
                    "filter_check_special_characters",
                    "filter_check_flagged_words",
                    "filter_check_lang_id",
                    "filter_check_perplexity"
                ],
                "sourceDatasetId": 2235,
                "sourceDatasetStrId": "ds-xxafmaifn213d",
                "destDatasetId": 2230,
                "destDatasetStrId": "ds-1j3l12jddok12",
                "entityCount": 1,
                "entityType": 2,
                "result": {
                    "RET_OK": 0,
                    "pipeline_stage_result": null,
                    "export_entity_num": 0,
                    "remaining_entity": 0,
                    "unprocessed_entity": 0,
                    "remove_emoji": {
                        "processed_entity": 0
                    },
                    "remove_url": {
                        "processed_entity": 0
                    },
                    "trad_to_simp": {
                        "processed_entity": 0
                    },
                    "remove_id_card": {
                        "processed_entity": 0
                    },
                    "remove_phone_number": {
                        "processed_entity": 0
                    },
                    "remove_exception_char": {
                        "processed_entity": 0
                    },
                    "replace_sim2trad": {
                        "processed_entity": 0
                    },
                    "replace_trad2sim": {
                        "processed_entity": 0
                    },
                    "replace_upper2lower": {
                        "processed_entity": 0
                    },
                    "cut": {
                        "remaining_entity": 0,
                        "unprocessed_entity": 0
                    },
                    "failReason": "",
                    "pauseReason": ""
                },
                "processStatus": 4,
                "status": 0,
                "errCode": 0,
                "errMsg": "",
                "createTime": "0001-01-01T00:00:00Z",
                "finishTime": "0001-01-01T00:00:00Z",
                "modifyTime": "0001-01-01T00:00:00Z"
            }
        ],
        "total": 1
    },
    "status": 200,
    "success": true
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如参数错误返回:

{	
    "code":"ParamFieldValueInvalid",
    "message":"参数不合法"
}

更多错误码,请查看错误码说明

上一篇
删除数据清洗任务
下一篇
数据增强V1