资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

音频文件转写极速版API-邀测

接口描述:支持提取视频、音频文件中的语音内容,极速返回识别结果及时间戳,适用于对实时性有一要求的内容分析、字幕生产、录音转写场景。(本接口处于邀测阶段,请提交合作咨询申请测试)

请求接口:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/asr/topspeed

HTTP 方法:POST

Headers参数:

参数 参数值 是否必须
Content-Type application/json

Body参数如下:

参数名称 类型 是否必须 对外状态 备注
access_token str 必须 通过 API Key 和 Secret Key 获取的 access_token,参考Access Token获取
rate int 必须 音频对应的采样率,目前只支持传16000
cuid str 必须 用户的唯一标识,调用时自己保证唯一即可
dev_pid int 必须 调用的转写模型,不同模型有不同的转写效果,目前只支持传80006
speech str 与speech_url二选一 对视频或音频文件进行base64编码后的结果,音频文件最多支持一小时的时长,整体文件不能超过500M。支持pcm、wav、mp3、m4a、mp4、mov等常见音视频文件格式
speech_url str 与speech二选一 可使用百度云对象存储进行音频存储,生成云端可外网访问的url链接。音频文件最多支持一小时的时长,整体文件不能超过500M。支持pcm、wav、mp3、m4a、mp4、mov等常见音视频文件格式
enable_subtitle int 非必须 根据常见字幕规则返回识别结果及对应时间戳 取值范围:[0,1,2]
0:关闭字幕功能(默认)
1:开启字幕功能
2:开启字幕模式,返回字粒度时间戳
其他取值:报错
subtitle_punc int 非必须 字幕结果中是否有标点 取值范围:[0,1]
0:过滤字幕中的标点(默认)
1:不过滤字幕中的标点
其他取值:报错
仅当字幕模式开启时生效
smooth_text int 非必须 文本顺滑(标点优化、数字格式优化、口语过滤) 取值范围:[0(不开启文本顺滑,默认), 1(开启文本顺滑)]
smooth_text_param list 非必须 具体开启的文本顺滑功能,仅当smooth_text=1时生效 取值范围:[1(标点),2(数字),3(口语)]
列表中参数必须为int类型,自定义所需功能,例如:
传入[1, 2, 3],开启标点+数字+口语功能
传入[1, 2],开启标点+数字
传入[3],开启口语
filter_sensitive int 非必须 敏感词过滤 取值范围:[0(不开启敏感词过滤,默认), 1(开启敏感词过滤)]

Body请求示例:

{
    "access_token":"24.578xxxxxxxxxxxxxxxxx", 
    "rate": 16000,
    "cuid": "baidu_asr",
    "dev_pid": 80006, 
    "speech": "UklGRqAfQgBXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAATEl…" 
    "enable_subtitle":1,
    "smooth_text": 1,
}

返回参数:

参数名称 类型 是否必须 备注 其他信息
result str [] 非必须 完整的转写结果,取元素0即是对应的文字 item 类型: string
error_code int 非必须 错误码
error_message str 非必须 错误信息
audio_duration int 非必须 音频整体时长,单位:毫秒
detailed_result object [] 非必须 每一句转写详情,含时间戳等信息 item 类型: object
+ res str [] 非必须 每句转写的文字结果,取元素0即是对应的文字 item 类型: string
+ end_time int 非必须 文字结束时间,单位:毫秒
+ begin_time int 非必须 文字开始时间,单位:毫秒
+ sn str 非必须 分句转写的id,反馈问题时使用
+ corpus_no str 非必须 整段转写的id,反馈问题时使用

返回示例:

{
    "error_code":0,
    "error_message":"请求成功",
    "audio_duration":1300,
    "result":["欢迎使用百度语音,"],
    "detailed_result":[
        {
        "begin_time":0,
        "corpus_no":"632690ff-40e8-4e59-9964-a381e4c64818_ws",
        "end_time":1300,
        "res":["欢迎使用百度语音,"],
        "sn":"632690ff-40e8-4e59-9964-a381e4c64818_ws_ws_0","words_info":[]
        },
    ……]
 }
上一篇
音频文件转写API
下一篇
语音质检API-邀测