资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建音频转写任务

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

创建音频转写任务

接口描述:根据音频url、音频格式、语言id以及采样率等参数创建音频转写任务

请求接口:https://aip.baidubce.com/rpc/2.0/aasr/v1/create

HTTP 方法:POST

URL参数:

参数 取值
access_token 通过 API Key 和 Secret Key 获取的 access_token,参考Access Token获取

JSON方式上传音频 Body中放置请求参数,语音数据和其他参数通过标准 JSON 格式串行化 POST 上传,包括的参数如下:

参数名 类型 是否必需 对外状态 取值范围
speech_url str 音频url 可使用百度云对象存储进行音频存储,生成云端可外网访问的url链接,音频大小不超过500MB
format str 音频格式 ["mp3", "wav", "pcm","m4a","amr"]单声道,编码 16bits 位深
pid int 语言类型 [80001(中文语音近场识别模型极速版), 80006(中文音视频字幕模型,申请试用),1737(英文模型)]
rate int 采样率 [16000] 固定值

若音频采样率为8k,请使用呼叫中心音频文件转写

Body请求示例:

{
    "speech_url": "https://platform.bj.bcebos.com/sdk%2Fasr%2Fasr_doc%2Fdoc_download_files%2F16k.pcm",
    "format": "pcm",
    "pid": 80001,
    "rate": 16000
}

返回参数

参数名 类型 是否必需 对外状态
log_id int log id
task_id str 任务id
task_status str 任务状态
error_code int 错误码
error_msg str 错误信息

Body返回示例:

# 创建成功
{
    "log_id": 12345678,
    "task_status": "Created",
    "task_id":  "234acb234acb234acb234acb"  #注意保存该id,用于后续请求识别结果
}
# 创建失败,缺少参数
{
    "error_code": 336203,
    "error_msg": "missing param: speech_url",
    "log_id": 5414433131138366128
}

注意:查询识别结果时,需要该步骤返回的task_id来进行请求。请注意保存task_id列表。