资讯 社区 文档
实时语音识别
基于Deep Peak2的端到端建模,将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景
功能介绍
应用场景
特色优势
产品定价
相关推荐
功能介绍
应用场景
实时语音输入
视频直播字幕
演讲字幕同屏
实时会议记录
课堂音频识别
实时语音输入
语音输入准确高效,解放双手,说话内容实时展示在屏幕上,聊天顺畅
特色优势
识别效果领先
基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98%
支持多设备终端
支持WebSocket API方式、Android、iOS、Linux SDK方式调用,可以适用于多种操作系统、多设备终端均可使用
服务稳定高效
企业级稳定服务保障,专有集群承载大流量并发,高效灵活,服务稳定
模型自助优化
中文普通话模型可在语音自训练平台上零代码自助训练,上传文本语料即可有效提升业务词汇的识别准确率5-25%
产品定价
通用场景模型
音视频场景模型
小时包预付费
适用于调用时长可预估的企业
免费时长
10小时
有效期
1年
并发量
50(支持扩容)
服务稳定性
99.9%
技术支持
7*24小时响应
1000小时
1800
立即购买
调用时长后付费
适用于不便预估调用时长的企业
免费时长
10小时
并发量
50(支持扩容)
服务稳定性
99.9%
技术支持
7*24小时响应
价格
3
元/小时
开通付费
模型训练
适用于专业领域名词识别不准,需要对语音识别语言模型进行规模训练的客户
上传文本、词汇即可训练
专业评估,精准提升
模型自动上线专属使用
立即训练
定价说明
本产品开通即享免费调用时长,使用完毕后可选择小时包预付费或按小时后付费两种计费方式,产生的计费调用时长优先消耗小时包额度,超出部分按时长计费
收费标准
开始使用识别服务
注册即可领取产品免费体验套餐
立即使用
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术