声音分类整体说明

更新时间：2022-04-12

什么是声音分类模型

声音分类是指可以定制识别出当前音频是哪种声音，或者是什么状态/场景的声音。
EasyDL声音分类可以定制的模型更多可以区分出不同物种发出的声音，如果希望定制声纹识别模型（如区分出当前音频是谁的声音），目前用EasyDL声音分类暂时无法解决。
目前声音分类使用EasyDL支持对最长15s左右的音频进行处理，在正式使用EasyDL声音分类模型之前，需要将已有的数据进行分段处理。

声音分类的典型应用场景

安防监控：定制识别不同的异常或正常的声音，进而用于突发状况预警。比如监控在工业生产场景中监控是否出现了异常噪音，从而辅助人工测试的时候判断是否出现bug。
科学研究：定制识别同一物种的不同个体的声音、或者不同物种的声音，协助野外作业研究。比如动物研究机构从野外采集的声音，借助于EasyDL声音分类模型，判断当前音频属于什么物种。
其他：尽情脑洞大开，训练你希望实现的声音分类模型。

定制声音分类模型的整体流程

定制声音分类模型基本流程如下图所示，全程可视化简易操作，在数据已经准备好的情况下，最快几分钟即可获得定制模型。

分析业务需求

这里我们详细介绍下，在使用EasyDL平台之前首先需要分析业务需求。这一步主要将实际业务需求转换为模型设计，在声音分类场景中，首先需要明确的问题为业务场景可能出现的全部声音类型有哪些？，这里很多企业开发者往往会主要关注业务场景中需要重点识别出的异常声音分类，而忽略了正常的声音也是一种分类。

以某服务商接到项目，需要判断出小区附近是否存在较大噪音为例，综合考虑小区附近可能有的声音类型，在这个场景需要定制声音分类模型能有效区分正常无噪音、正常噪音如救护车、警车声音、异常噪音，如汽车大声按喇叭等三类状态。那么在后续的准备数据阶段，也需要能有效准备这三类声音。

语音识别