开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    经典版声音分类上传数据集

    目录

    1. 上传数据要求说明
    2. 上传数据集操作介绍

    上传数据要求说明

    这里我们对上传数据的要求不仅是格式上的要求,更重要的是介绍怎样的数据可以更有效提升模型效果

    设计分类

    首先想好分类如何设计,每个分类为你希望识别出的一种结果,如要识别猫狗的叫声,则可以以“猫”、“狗”等分别作为一个分类;如果安防监控通过声音判断是否出现异常状态,可以以“正常”“不异常”设计为两类,或者“正常”“异常原因一”、“异常原因二”、“异常原因三”……设计为多类。

    注意:目前单个模型的上限为1000类,如果要超过这个量级请在百度云控制台内提交工单反馈

    准备数据:

    基于设计好的分类准备音频数据,每个分类需要准备50个音频文件以上,如果想要较好的效果,建议100个起音频文件,如果某些分类的声音具有相似性,需要增加更多音频。

    音频的基本格式要求: 目前支持音频文件 类型为支持wav,mp3,m4a ,音频文件大小限制在4M以内。一个模型的音频总量限制10万个音频文件。

    注意1:训练集音频需要和实际场景要识别的音频环境一致,举例:如果实际场景要识别的声音都是手机采集的,那训练的音频文件也需要同样的场景获得,而不要采用网上随便下载的音频
    注意2:考虑实际应用场景可能有的种种可能性,每个分类的音频需要覆盖实际场景里面可能有的可能性,如噪音干扰、多种可能的采集设备,训练集覆盖的场景越多,模型的泛化能力越强。
    注意3:如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

    你可能会有的问题:如果训练音频数据无法全部覆盖实际场景要识别的音频,怎么办?

    答:本身模型算法会有一定的泛化能力,尽可能覆盖即可。

    上传数据集操作介绍

    数据集完成创建后,可以在声音分类数据集列表查看已创建的数据集。 点击上传后进入数据集上传页面,有两种上传声音分类数据方式。

    • 单个分类上传
    • 批量上传

    单个分类上传

    选择单个分类上传,需要在下拉框内选择/新建要上传的单个分类名称,如要上传标签为【pig】的音频数据,即可在下拉框中新建【pig】的标签。然后点击添加音频,可选取本地音频文件上传音频数据。

    image.png

    批量上传

    选择批量上传,需要上传本地声音分类压缩包。

    image.png

    注意,压缩包有以下要求:

    • 目前压缩包仅支持.zip格式
    • 压缩包限制5G以内。
    • 压缩包单次上传限制10个以内。
    • 压缩包内的声音分类数据需要按照以下结构进行数据组织,中间的文件夹命名为分类名称,如要上传pig和cat两类音频,文件夹命名分别为【pig】【cat】。
    • 压缩包内的分类名称命名需要定义为字母或数字,若以中文命名可能解析为乱码

    image.png

    数据处理完后的图片示意:

    image.png

    上一篇
    创建数据集
    下一篇
    数据集管理API