中文题名: |
基于改进CRN的单通道语音增强研究 |
姓名: | |
学号: | 1049721801643 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 083500 |
学科名称: | 工学 - 软件工程 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 语音增强 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2021-09-01 |
答辩日期: | 2021-09-23 |
中文关键词: | |
中文摘要: |
随着社会和信息技术的飞速发展,语音交互在各种设备和应用场景得到了广泛的应用,然而在真实的语音相关的应用场景中,语音信号往往会被复杂的环境噪声和混响所干扰,导致语音的可懂度下降,也会影响语音下游相关应用的性能,研究如何有效降低语音中的噪声干扰,提高失真语音信号的可懂度和整体感知质量便是语音增强的基本任务。本文主要研究对象就是的单通道语音增强。 主流的基于编解码器的单通道语音增强模型使用卷积编码器来对语音特征降维,然后对得到的高级特征使用编码器升维,得到目标输出,在这个编解码的过程中,还使用了跳跃连接将编码器层生成的特征图传递给同层的解码器层,从而帮助解码器更好地恢复出降噪后的语音。然而现有的方法未充分利用编解码过程中生成的全尺度特征,并且基于全带的模型忽略了语音的局部谱模式之间的差异,同时基于时频域的方法在重建干净语音时只是简单结合了原始输入信号的相位,未对短时傅里叶变换后虚部的相位信息进行充分考虑,制约了模型增强语音的效果,本文考虑上述问题,针对在时频域上基于CRN的语音增强方法进行了研究,主要研究内容包括: (1)针对当前较为流行的基于编解码器的模型未充分利用全尺度特征,提出了一种全尺度特征连接的语音增强模型FSC-SENet。首先,本文构建了一种基于CRN架构的语音增强方法,使用卷积编码器和解码器来提取和恢复语音特征,在模型编解码器最窄处使用LSTM模块来提取特征的时序信息,然后提出了一种全尺度的连接方法和多特征动态融合机制,使得解码器在解码过程中能够充分利用全尺度的特征来恢复出干净语音。在TIMIT语料库上的实验结果表明,我们的FSC-SENet相比基础的骨干网络CRN,在可见噪声情况下PESQ提高0.39,STOI提高2.8%,在不可见噪声情况下PESQ提高0.43,STOI提高3.1%,证明本文所提出的全尺度连接机制能使基于编解码结构的网络(如CRN)有更好的语音增强性能。 (2)针对本文的单一的全带模型忽略局部谱模式信息问题,引入了语音的子带分析,提出了一种全带子带级联的模型来结合子带模型和全带模型各自的不足,同时还提出了简化的特征融合模块,对原始带噪语音特征和中间阶段的估计结果融合,帮助后续阶段的模型进行更好地估计。本文在TIMIT数据集上进行了实验,实验结果显示全带子带级联的语音增强模型相比其他模型具有最高的客观指标得分,证明我们所提出的两阶段语音增强模型相比纯全带和纯子带模型有更好的增强效果,全带模型和子带模型能够互补。 (3)针对当前在时频域上的语音增强模型对相位信息利用不充分,本文在上一个工作中所提出的两阶段语音增强模型的基础上提出了一种深度复数语音增强网络,使得网络能够对语音的复数特征进行操作,同时提出了支持复数特征的复数动态特征融合模块。网络能够更好地利用相位信息,而不是之前的只利用语音的幅值特征来预测干净语音。在开源数据集上的实验结果证明,在引入相位信息后本文模型有更好的增强效果,评价指标优于其它基准算法。 |
参考文献: |
[1] Loizou P C. Speech enhancement: Theory and practice [M]. CRC press, 2007. [6] 路成, 田猛, 周健, et al. L_(1/2)稀疏约束卷积非负矩阵分解的单通道语音增强方法 [J]. 声学学报, 2017, 42(03): 377-384. |
中图分类号: | TN912.3 |
条码号: | 002000062960 |
馆藏号: | TD10049613 |
馆藏位置: | 403 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |