- 无标题文档
查看论文信息

中文题名:

 自然环境下的鸟类叫声识别的研究    

姓名:

 章曦    

学号:

 1049721303157    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 081001    

学科名称:

 通信与信息系统    

学生类型:

 硕士    

学位:

 工程硕士    

学校:

 武汉理工大学    

院系:

 信息工程学院    

专业:

 电子与通信工程    

研究方向:

 机器学习 软件    

第一导师姓名:

 苏杨    

第一导师院系:

 武汉理工大学    

完成日期:

 2015-04-10    

答辩日期:

 2015-05-17    

中文关键词:

 声音识别 ; 频谱图 ; 随机森林 ; k-means算法 ; 模板匹配    

中文摘要:

鸟类研究对生物学有着不可替代的作用。作为生态系统中的重要的成员,鸟类的种类和数量能预示着环境气候等各种地理学和生态学问题。而统计鸟类的叫声能够有效地预知鸟类的数量和种类,所以研究鸟类的叫声的意义十分重要。传统的鸟类数据采集的办法是人工靠看或者听来收集并统计信息,计算机科学日益强大的今天,机器学习逐渐被应用到了鸟类识别的工作中。

鸟声识别的研究中比较流行的特征参数有频谱图的频谱分段、时频图的纹理特征和美尔倒谱系数(Mel—frequency cepstrum co—efficients,MFCC)等。本文所有的数据集是在自然环境下采集的,它们的噪声严重,并且同一个音频样本中有可能存在多种鸟类的叫声,所以本质上是属于多标记学习问题。多标记问题的特点是每一个样本中存在多个种类的标签,而频谱图中的每个频谱分段只会有一种标签,所以本文使用的特征参数是来自频谱图的频谱分段,这样方便将多标记问题化简为单标记问题。本文的具体工作如下:

(1)对数据集样本进行预处理并提取特征。首先,音频文件在重叠帧处理后,利用汉明窗进行傅里叶变换,得到频谱图。然后对频谱图进行对数处理,得到每个样本对应的对数谱。用到高斯平滑滤波、梯度计算、二值化等方法对每个对数谱进行了图像的处理,这个过程完成了去噪和特征加强的工作,并得到了一个频谱分段轮廓清晰的图像。最后,提取频谱分段的边缘信息作为样本特征。

(2)将K-means聚类算法和随机森林算法结合,完成了对鸟类叫声的识别。首先对特征信息进行聚类操作,将相似的频谱分段特征聚集在一起形成字典(codebook)。然后把字典中训练集的部分提出来,并建立随机森林的模型。最后将字典中测试集的部分放到模型中测试,得到预测的结果。

(3)将模板匹配算法和随机森林算法结合,完成了对鸟类叫声的识别。这里的模板匹配和K-means聚类算法有着相似的作用。让预处理部分得到的频谱分段的边缘特征信息作为模板匹配的模板,首先将这些模板在所有的样本频谱中进行匹配。训练集匹配后得到一个已经分类的字典,利用它建立随机森林的模型。然后将测试集部分匹配的结果作为模型输入,并得到相应的预测结果。

(4)将使用的两种方法在运行时间和精确度两方面进行了比对和分析。精确度方面使用AUC的值来进行比较,而运行时间则是计算机处理不同方法所用的时间。通过实验的结果可知,模板匹配结合随机森林的方法比聚类结合随机森林的方法要有更高的精确度。但是在运行时间方面,模板匹配用了更多的时间,而K均值聚类算法的运行时间是很快的。

参考文献:

[1] 卢世军. 生物特征识别技术发展与应用综述[J]. 计算机安全, 2013, (1):63-67.

[2] 黄英来. 基于动物声音的个体辨认技术的研究[D]. 东北林业大学, 2006.

[3] 何清, 李宁, 罗文娟,等. 大数据下的机器学习算法综述[J]. 模式识别与人工智能, 2013. DOI:doi:10.3969/j.issn.1003-6059.2014.04.007.

[4] 张倩, 刘怀亮. 一种基于半监督学习的短文本分类方法[J]. 现代图书情报技术, 2013, (2).

[5] 雷富民. 鸟类鸣声结构地理变异及其分类学意义[J]. Zoological Systematics,1999,24(2):232-240.

[6] 蒋翠清, 邵宏波. 基于MFCC与改进ACF的汽车声音识别算法研究[J]. 计算机技术与发展, 2015, (2).

[7] 陈拥权, 张羽, 胡翀豪,等. 声纹识别技术及其应用前景分析[J]. 网络安全技术与应用, 2013, (11):24-24. DOI:doi:10.3969/j.issn.1009-6833.2013.11.015.

[8] 陈莎莎, 李应. 结合时-频纹理特征的随机森林分类器应用于鸟声识别[J]. 计算机应用与软件, 2014, (1):154-157. DOI:doi:10.3969/j.issn.1000-386x.2014.01.040.

[9] 周晓敏, 李应. 基于Radon和平移不变性小波变换的鸟类声音识别[J]. 计算机应用, 2014, 34(5):1391-1396. DOI:doi:10.11772/j.issn.1001-9081.2014.05.1391.

[10] 王恩泽, 何东健. 基于MFCC和双重GMM的鸟类识别方法[J]. 计算机工程与设计, 2014, 35(5):1868-1871. DOI:doi:10.3969/j.issn.1000-7024.2014.05.071.

[11] 戴天虹, 李野, 孙鹏. 基于MATLAB鸟叫声特征提取方法的研究[J]. 森林工程, 2013, 29(2):130-134..

[12] Chellappa R, Wilson C L, Sirohey S. Human and machine recognition of faces: a survey[J]. Proceedings of the IEEE, 1995, 83(5):705 - 741.

[13] Ali T, Spreeuwers L, Veldhuis R. Forensic Face Recognition: A Survey[J]. University of Twente, Centre for Telematics and Information Technology (CTIT), 2010.

[14] TM T, A. P. Eigenfaces for Recognition[J]. Cognitive Neuroscience, Journal of, 1991, 3(1):71 - 86.

[15] MLSP-2013-birds Classification Challenge. (n.d.). Retrieved May 20, 2013, from Kaggle:http://www.kaggle.com/c/allstate-purchase-prediction-challenge/data.

[16] 李宇峰, 黄圣君, 周志华. 一种基于正则化的半监督多标记学习方法[J]. 计算机研究与发展, 2012, 49(6):1272-1278.

[17] 陈晓峰, 王士同, 曹苏群. 半监督多标记学习的基因功能分析[J]. 智能系统学报, 2008, 3(1):83-90. DOI:doi:10.3969/j.issn.1673-4785.2008.01.013.

[18] 李雅林, 张化祥, 张顺. 基于近邻加权及多示例的多标记学习改进算法[J]. 计算机工程与应用, 2013, (16):113-116. DOI:doi:10.3778/j.issn.1002-8331.1204-0539.

[19] 蒲晓霖, 李景文. 一种新的频域自适应算法[J]. 北京航空航天大学学报, 2005, 31(12):1347-1350. DOI:10.3969/j.issn.1001-5965.2005.12.017.

[20] 宋水正, 何春, 田丹,等. OFDM中基于导频的加窗FFT信道估计[J]. 通信技术, 2011, 44(2):19-21. DOI:doi:10.3969/j.issn.1002-0802.2011.02.007.

[21] 谢勤岚. 图像降噪的自适应高斯平滑滤波器[J]. 计算机工程与应用, 2009, 45:182-184. DOI:doi:10.3778/j.issn.1002-8331.2009.16.053.

[22] 张丽果. 快速非局部均值滤波图像去噪[J]. 信号处理, 2013, 29(8):1043-1049. DOI:doi:10.3969/j.issn.1003-0530.2013.08.018.

[23] 卢官明, 李姝虹. 多尺度形态梯度算法及其在图像分割中的应用[J]. 信号处理, 2001, 17(1):37-41. DOI:doi:10.3969/j.issn.1003-0530.2001.01.009.

[24] 赵雪松, 陈淑珍. 综合全局二值化与边缘检测的图像分割方法[J]. 计算机辅助设计与图形学学报, 2001, 13(2):118-121. DOI:doi:10.3321/j.issn:1003-9775.2001.02.005.

[25] 畅通, 杜栓义. 改进型短时对数谱的语音增强算法的DSP实现[J]. 现代电子技术, 2007, 30(5):166-168. DOI:doi:10.3969/j.issn.1004-373X.2007.05.058.

[26] 刘熙沐, 王二庆, 曹亮. 基于DSP实现的改进型短时对数谱语音增强算法研究[J]. 电子技术与软件工程, 2014, (11):58-58.

[27] 段瑞玲, 李庆祥, 李玉和. 图像边缘检测方法研究综述[J]. 光学技术, 2004, 31. DOI:doi:10.3321/j.issn:1002-1582.2005.03.028.

[28] 王植, 贺赛先. 一种基于Canny理论的自适应边缘检测方法[J]. 中国图象图形学报:, 2004, 9(8):957-962. DOI:doi:10.3969/j.issn.1006-8961.2004.08.011.

[29] 魏伟波, 芮筱亭. 图像边缘检测方法研究[J]. 计算机工程与应用, 2006, 42(30):88-91. DOI:doi:10.3321/j.issn:1002-8331.2006.30.025.

[30] Zweig M H, Campbell G. Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine.[J]. Clinical Chemistry, 1993, 39(4):561-577.

[31] Klawonn F, H02ppner F, May S. An Alternative to ROC and AUC Analysis of Classifiers[J]. Lecture Notes in Computer Science, 2011:210-221.

[32] Ding C H Q, He X. Principal Component Analysis and Effective K-Means Clustering.[J]. Stat, 2014, 3(1):126–143.

[33] 张莉, 孙钢, 郭军. 基于K-均值聚类的无监督的特征选择方法[J]. 计算机应用研究, 2005, 22(3):23-24. DOI:doi:10.3969/j.issn.1001-3695.2005.03.006.

[34] 张文君, 顾行发, 陈良富,等. 基于均值-标准差的K均值初始聚类中心选取算法[J]. 遥感学报, 2006, 10:715-721. DOI:doi:10.3321/j.issn:1007-4619.2006.05.017.

[35] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5--32.

[36] Cutler D R, Jr E T, Beard K H, et al. Random forests for classification in ecology.[J]. Ecology, 2007, 88(11).

[37] 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报, 2013, 50(4):1190-1197. DOI:doi:10.7679/j.issn.2095-1353.2013.163.

[38] Goshtasby A. Template matching in rotated images.[J]. IEEE Trans Pattern Anal Mach Intell, 1985, 7(3):338 - 344.

[39] 王强, 宋京民, 胡建平,等. 一种快速模板匹配目标识别算法[J]. 计算机工程与应用, 2000, 36(6):42-43. DOI:doi:10.3321/j.issn:1002-8331.2000.06.015.

[40] 赵龙, 郭宝, 李铁军. 基于边缘增强模板匹配的 PTZ主动目标跟踪系统[J]. 应用科技, 2014, (4):1-5. DOI:doi:10.3969/j.issn.1009-671X.201307013.

中图分类号:

 TN912.34    

馆藏号:

 TN912.34/3157/2015    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式