开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

经典版声音分类上传数据集

上传数据要求说明

这里我们对上传数据的要求不仅是格式上的要求,更重要的是介绍怎样的数据可以更有效提升模型效果

设计分类

首先想好分类如何设计,每个分类为你希望识别出的一种结果,如要识别猫狗的叫声,则可以以“猫”、“狗”等分别作为一个分类;如果安防监控通过声音判断是否出现异常状态,可以以“正常”“不异常”设计为两类,或者“正常”“异常原因一”、“异常原因二”、“异常原因三”……设计为多类。

注意:目前单个模型的上限为1000类,如果要超过这个量级请在百度云控制台内提交工单反馈

准备数据

基于设计好的分类准备音频数据,每个分类需要准备50个音频文件以上,如果想要较好的效果,建议100个起音频文件,如果某些分类的声音具有相似性,需要增加更多音频。

音频的基本格式要求: 目前支持音频文件 类型为支持wav,mp3,m4a ,音频文件大小限制在4M以内。一个模型的音频总量限制10万个音频文件。

注意1:训练集音频需要和实际场景要识别的音频环境一致,举例:如果实际场景要识别的声音都是手机采集的,那训练的音频文件也需要同样的场景获得,而不要采用网上随便下载的音频
注意2:考虑实际应用场景可能有的种种可能性,每个分类的音频需要覆盖实际场景里面可能有的可能性,如噪音干扰、多种可能的采集设备,训练集覆盖的场景越多,模型的泛化能力越强。
注意3:如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

你可能会有的问题:如果训练音频数据无法全部覆盖实际场景要识别的音频,怎么办?

答:本身模型算法会有一定的泛化能力,尽可能覆盖即可。

导入未标注数据

本地数据

image.png

已有数据集

支持选择百度云BOS导入、分享链接导入、平台已有数据集导入;支持选择线上已有的数据集,包括其他语音类模型的数据集

image.png

导入已标注数据

本地数据

image.png

已有数据集

支持选择百度云BOS导入、分享链接导入、平台已有数据集导入;支持选择线上已有的数据集,包括其他语音类模型的数据集

image.png

上一篇
创建数据集
下一篇
数据集管理API