分类
学界业界动态 智能语音技术 机器学习及应用

使用N-DenseNet实现城市声音事件分类模型

(在苹果系统下,如果文章中的图片不能正常显示,请升级Safari浏览器到最新版本,或者使用Chrome、Firefox浏览器打开。)

现代社会中,智慧城市的构建是一个当前的趋势,其中包括利用传感器网络收集目标城市的城市声音时间的信息采集和分类研究用相关音频数据并进行分析,这对于是提高智能感知水平的重要一步。来自江南大学的一研究团队,通过采用N-DenseNet网络模型,实现了对城市声音事件的分类,其一阶和二阶模型的分类准确率达到了83.63%和81.03%,并且具有良好的泛化能力。

论文标题:《N-DenseNet 的城市声音事件分类模型》

论文作者:曹 毅, 黄子龙, 张 威, 刘 晨, 李 巍

论文链接:http://kns.cnki.net/kcms/detail/61.1076.TN.20190828.1452.002.html

下载地址:https://d.ailemon.net/Urban-sound-event-classification-with-the-N-Order-dense-convolutional-network.pdf

DenseNet

在DenseNet的网络结构中,每一层的输入来自前面所有层的输出,其通过Dense Block 中每层均以密集连接的方式连接到后续所有层。

DenseNet示意图

N阶马尔可夫模型

马尔可夫模型是一种统计模型,其当前状态依赖之前的状态,当其依赖前N个状态时,即为N阶马尔可夫模型。

N阶马尔可夫模型示意图

N-DenseNet 网络模型

N-DenseNet层与层之间的有关连接仅限为使用 Concatenation 层的连接,第 N+1 层的输入与前 N 层的输出有关,在卷积神经网络中层与层之间前向传播连接为 N-DenseNet 模型的零阶连接。

N-Dense模型Block示意图

实验结果

模型损失值曲线和准确率曲线:

N-DenseNet模型和不同模型准确率对比:

模型泛化能力:

结论

(1) 在 Dcase2016 数据集下,1-DenseNet、2-DenseNet 模型最佳分类准确率分别为 80.00%、81.03%;

(2) 在 UrbanSound8K 和 Dcase2016 两个数据集下,1-DenseNet、2-DenseNet 模型均高于 80.00%,其证明了 N-DenseNet 模型确实具有良好的泛化能力;

(3) 模型各子类的准确率也均在 80%左右,进一步验证了模型分类的稳定性。

上述研究也进一步证明了 N-DenseNet 模型具有良好的泛化能力。

综上结论表明:N-DenseNet 模型相较于传统卷积神经网络以及 DenseNet,不仅具有更好的分类准确率,在单个类别中分类稳定性较好,且模型具有良好的泛化能力。也证明了N-DenseNet 模型的正确性。

论文下载地址:https://d.ailemon.net/Urban-sound-event-classification-with-the-N-Order-dense-convolutional-network.pdf

版权声明
本博客的文章除特别说明外均为原创,本人版权所有。欢迎转载,转载请注明作者及来源链接,谢谢。
本文地址: https://blog.ailemon.net/2019/09/04/urban-sound-event-classification-with-the-n-densenet/
All articles are under Attribution-NonCommercial-ShareAlike 4.0

关注“AI柠檬博客”微信公众号,及时获取你最需要的干货。


“使用N-DenseNet实现城市声音事件分类模型”上的2条回复

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

10 − 10 =

如果您是第一次在本站发布评论,内容将在博主审核后显示,请耐心等待