中文题名: |
基于深度学习的声音信号增强关键技术研究 |
姓名: | |
学号: | 1049722003773 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 080703 |
学科名称: | 工学 - 动力工程及工程热物理 - 动力机械及工程 |
学生类型: | 硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 噪声振动控制 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2023-03-15 |
答辩日期: | 2023-05-13 |
中文关键词: | |
中文摘要: |
近年来,基于声音信号的监测方法逐渐成为无接触检测的重要手段。由于环境中其它声音及可能存在的由墙壁和其它物体表面反射引起的混响会对目标声信号造成干扰,麦克风采集到的目标信号质量会受到不同程度的影响。因此在声信号监测系统的信号处理模块中,针对不同场景设计的信号增强算法是声信号监测系统的核心任务。论文针对目标信号提取、源分离和降噪抑制混响等信号增强任务,开展声音信号增强深度学习模型研究,主要工作和结论如下: (1)针对当前目标信号提取算法使用传统时频特征作为输入,导致结果精度低和计算量大的问题,提出了一种使用自学习特征的基于U-Net掩蔽模型目标信号提取算法。对U-Net进行了结构调整并且嵌入长短时记忆结构,提升了模型对信号特征图的特征提取能力。改进的U-Net掩蔽模型使用自学习特征经过ReLU函数激活保证其稀疏性,通过多组可训练权重的卷积采样对波形信号进行编码,避免了时频域方法存在的相位估计问题。实验结果表明,自学习特征对深度学习模型的性能以及信号建模能力的提升效果明显,所提出单通道目标信号提取算法在不同声源信号分离任务中取得了较好的性能指标。 (2)针对源分离深度学习模型难以平衡计算成本和准确性的问题,提出了一种基于Conv-TasNet的端到端全卷积时域声源分离改进模型。针对Conv-TasNet模型对信号特征图利用不充分的问题,设计了一种同时具有时域和通道域特征提取能力的TCN结构,并且改进自学习特征的设置以适应全新的掩码估计网络。实验结果表明,改进的声源分离模型在经典的语音分离任务中对比基线模型的性能有显著的提升。计算复杂度分析结果表明,提出的基于Conv-TasNet的改进声源分离模型参数量少、计算量小,在实时应用场景中对比其它单通道声源分离模型更具有优势。 (3)针对现有用于多通道信号增强的波束形成方法过于依赖上下文信息的问题,提出了一种改进的神经网络滤波求和式波束形成模型。在FaSNet波束形成模型的基础上,设计了一种基于门控循环单元GRU的神经网络结构作为模型滤波阶段使用的滤波器。在RIR仿真验证数据集上实验结果表明,所提出的波束形成模型在处理多通道回声噪声语音增强任务上优于传统波束形成方法和基线模型FaSNet的性能。对比传统波束形成方法,所提出的模型需要的时序信息长度大幅度减少,能够应用于实时麦克风阵列信号处理。 |
参考文献: |
[1] 马文嘉, 王丰华, 党晓婧. 基于稀疏自适应S变换的变压器短路冲击绕组状态声信号检测[J]. 电网技术, 2021,045(009):3755-3762. [5] Vidal R. Generalized Principal Component Analysis (GPCA)[J]. Springer New York, 2016. [7] 孙学明, 张大华, 周志全, 等. 基于主成分分析的激光麦克风的语音信号提取[J]. 激光与红外, 2022, 52(12):7. [9] Michel U. History of acoustic beamforming[C]. Berlin Beamforming Conference. DLR, 2006. [14] 叶中付, 朱媛媛, 贾翔宇. 基于字典学习和稀疏表示的单通道语音增强算法综述[J]. 应用声学, 2019, 38(4):8. [15] 廖重阳. 稀疏表示中的字典学习方法研究及其在图像分类中的应用[D]. 合肥工业大学, 2015. [17] 黄建军, 张雄伟, 张亚非, 等. 时频字典学习的单通道语音增强算法[J]. 声学学报, 2012, 37(5):9. [18] 姜峰, 霍彦明, 李争. 稀疏表示及区分性联合字典学习语音降噪算法[J]. 小型微型计算机系统, 2020, 41(5):5. [36] 徐亮, 王晶杨, 文镜, 等. 基于Conv-TasNet的多特征融合音视频联合语音分离算法[J]. 信号处理. 2021,37(10):1799-1805. [38] 皮磊, 朱磊, 郑翔, 等. 基于改进Wave-U-Net跳跃连接的盲源分离算法[J]. 信号处理, 2022(004):038. [59] Salamon J, Jacoby C, Bello J P. A Dataset and Taxonomy for Urban Sound Research[J]. ACM, 2014. [63] 王昕, 蒋志翔, 张杨, 等. 基于时间卷积网络的深度聚类说话人语音分离[J]. 计算机工程与设计, 2020(009): 041. [66] 刘雨佶,童峰,陈东升,等. 面向船载远程会议的麦克风阵列高精度DOA估计[J].电子技术应用,2022,48(3):32-36,77. |
中图分类号: | TN912.35 |
条码号: | 002000074553 |
馆藏号: | YD10002543 |
馆藏位置: | 203 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |