英语原文共 33 页,剩余内容已隐藏,支付完成后下载完整资料
短时傅里叶变换域中语音增强的研究进展
摘要
本文对短时傅里叶变换(STFT)域的降噪问题进行了综述。首先,我们分别简要回顾了单通道和多通道情况下的传统文献。在单通道的情况下,我们重点研究了谱减法、基于维纳滤波器的方法、语音振幅估计器和复数STFT系数的估计器。在多通道的情况下,我们简要地研究了关键波束形成方法以及传统的后置滤波方法的选择。接下来,详细介绍了基于短时傅里叶变换的降噪方法的最新进展。这包括具有超高斯先验的STFT估计器、噪声功率谱密度(PSD)估计、调制域中的估计方法、谱相位估计以及用于多通道应用的噪声PSD矩阵估计。最后,我们总结了所提出的材料,并对每个研究主题得出重要的结论。
Ⅰ.引言
语音增强的目的是利用信号处理技术提高退化语音信号的可懂度或整体感知质量。基本上,在实际应用中所记录的语音信号可能会被声环境和音箱中产生的各种噪声类型、干扰、回声和混响所破坏。这些退化会显著降低人类听众对语音信号的可懂度,也会恶化语音编码和识别系统的性能。因此,高性能的语音增强技术是所有语音通信系统所必需的。
图1说明了在需要语音增强的情况下捕获音频信号的一般场景。正如所观察到的,被捕获的信号通常会被环境噪声、语音干扰、语音回声和声学混响所破坏。这些缺陷会对纯净语音质量及其可懂度造成扭曲,因此有必要对纯净语音实施合适的语音增强算法。被噪声降级的语音的增强或降噪是语音增强研究的一个重要课题。一般来说,语音信号的降噪是一个困难的任务,原因有很多。首先,语音干扰的性质和特征在不同的环境中或从一个应用程序到另一个应用程序可能会发生巨大的变化。其次,评估语音增强算法保真度的性能标准可以根据应用的不同而有所不同。作为一个常见的例子,在单通道(即单麦克风)情况下,语音退化是由于不相关的附加噪声,降噪通常可以通过引入语音失真来实现。在这种情况下,即使降噪措施显示处理后的语音质量有所改善,但后者的失真措施可能比有噪声的语音更差。事实上,传统的语音增强算法在降噪量上与纯净语音中引入的语音失真之间存在一定的折中。
降噪最重要的应用包括移动电话、网络语音协议(VoIP)、电话会议系统、语音识别和助听器。噪声环境下的语音处理和通信系统大多需要语音恢复模块才能正常工作。例如,在数字电话应用中,环境噪声使语音编解码器无法准确地估计所需的频谱参数。因此,产生的编码语音经过传输后,声音失真,并且仍然包含有恶化的噪声。因此,为了提高语音编解码器的性能,必须采用语音增强子系统作为前端来降低噪声能量。此外,在自动语音识别系统(ASR)中,无论底层语音系统ASR的性能如何,输入语音质量都会对语音识别的精度产生巨大的影响。因此,语音增强方案在ASR系统的整体性能中起着重要的作用。语音增强对助听器来说也是至关重要的,因为这些助听器从本质上放大了接收音频中当前的噪音,因此,可能会对听力受损的人造成进一步的语音理解困难。因此,随着上述语音和音频系统的快速发展,未来对更有效的噪声抑制算法的需求将越来越大。
从一般的角度来看,主要的降噪算法可分为几个基本类别,包括自适应滤波方法,谱减法算法,维纳滤波及其变化,基于统计模型的方法和子空间算法[7]。鉴于可以在不同类别的语音增强算法之间进行语音质量和清晰度之间的性能比较,因此必须考虑到诸如计算量,训练数据的需求以及关于噪声和语音环境的限制性假设等因素为给定的应用选择适当的降噪方法。虽然通常以时域样本序列的形式获取有噪声的语音信号,但语音增强通常是在变换域中实现的。在语音处理领域,最重要的信号转换包括离散傅立叶变换(DFT),离散小波变换,离散余弦变换(DCT)和Karhunen-Loeve变换(KLT)。在现有的用于语音增强的现有变换域技术中,基于DFT处理的技术通常在实际应用中受到青睐。这是由于多种因素造成的,例如通过使用快速傅立叶变换(FFT)降低了计算复杂度,易于实现,在不同频率下的降噪和语音失真之间进行权衡的能力,自然与人耳内发生的听觉过程相似,并且存在用于修饰语音的时域合成的有效窗口技术。由于所有这些原因,基于DFT的方法(也称为频域方法)在研究领域中受到了三十多年的关注。
在这些方法中,对噪声语音频谱进行修改,然后转换回时域以获得增强的语音信号。然而,在诸如移动通信系统的许多应用中,最大算法延迟和计算复杂度受到严格限制。此外,使用DFT仅适用于固定信号,即随时间变化具有恒定统计量的信号。但是,语音被认为是准平稳信号,即仅在短时间内具有近似恒定统计的信号。由于这些原因,在语音信号的频域处理中,需要考虑大约10-40ms的时间段,在该时间段内语音信号的统计数据不会显着改变。这是通过将语音信号分割为短时间段并随后分别处理每个段的傅里叶系数来实现的。经不同时间帧处理的系数经过傅立叶逆变换,并通过交叠或交叠方法重新组合,以产生完整的增强语音。这种技术,称为短时傅立叶变换(STFT)处理,现在成为主要实现语音增强的所有频域方法的基础。除了计算效率高之外,这种处理结构还可以独立处理不同的频率,这在利用噪声统计数据和利用我们的语音感知知识来优化增强性能方面具有吸引人的灵活性。因此,过去在语音增强方面的大多数努力都致力于该框架。
假设噪声过程是可加的,并且噪声和语音过程是(统计上)独立的,则STFT域中的许多常规方法都试图在最佳意义上估计语音DFT系数。 但是,由于语音DFT系数的复杂性质,它们可以实部或振幅相位(极性)形式表示。 在这方面,可以在STFT域中识别出两种广泛类型的方法:试图分别估计实分量和虚分量的方法,以及旨在估计干净语音DFT系数的幅度和/或相位的方法。 前者基于DFT系数的实部和虚部是独立的假设,而后者则假设幅度和相位是独立的成分。 尽管如此,在语音DFT系数的复杂高斯模型下,可以证明这两个假设是等效的。
考虑到语音信号的复数DFT系数的极性表示,通常都不知道相位和幅度分量。但是,由于语音幅度和相位的联合估计在统计优化框架内可能在数学上具有挑战性,因此可能的解决方案是分别估计每个分量,然后组合它们以产生复杂的语音系数。在这方面,在语音增强文献中发现频谱幅度在感知上比频谱相位更相关。根据[14],[15]中的各种实验,与带噪阶段(即带噪语音)相比,使用准确的语音相位估计并不能显着改善降噪效果性能。此外,在[16]中证明,在最小均方误差(MMSE)意义上,语音DFT相位的最佳估计实际上是降级的噪声相位。因此,开发基于STFT的降噪算法的大部分工作都集中在语音频谱幅度的估计,在本文中也称为短时频谱幅度(STSA)。 估计语音频谱幅度的最著名方法可分为谱减法,维纳滤波和基于统计模型的方法。 实际上已经开发了后一种方法,也称为贝叶斯STSA估计器,以克服前两组的缺点,即前两种方法不能提供干净语音的STSA的最佳估计。 从本质上讲,语音STSA的贝叶斯估计首先由Ephraim和Malah在他们的开创性论文中引入。 其中,对STSA的MMSE最佳估计器进行了公式化,随后证明与目前的其他现有方法相比,在增强方面具有出色的性能。 在这项开创性的工作之后,后来在此方向上提出了几种改进的STSA估算器,例如 [20] – [22]。
在一般情况下,仅使用DFT系数的相位即可重构有限持续时间(一维)信号(至比例因子)。 因此,在语音增强的情况下,似乎有可能首先更准确地估计频谱相位,然后尝试从相位信息中重建信号。 但是不幸的是,重建语音信号的精度对相位估计的精度极为敏感,而这种语音增强技术将需要能够非常准确地估计频谱相位的能力,这并非易事。 尽管如此,近年来,人们对相位估计在语音质量增强中的作用的研究越来越引起人们的兴趣,并且提出了几种恢复频谱相位的方法及其与STSA的结合, 例如 [26]–[28]。
本文的其余部分安排如下。第二部分首先介绍了考虑到单通道和多通道方法的各种基于STFT的降噪方法的简要背景。对于单信道,主要方法包括谱减法,维纳滤波,MMSE和语音STSA的最大值事后(MAP)估计器,以及复数DFT的估计器(即STFT系数) 。在多通道的情况下,简要讨论了关键波束形成方法的选择以及后置滤波方法(即适用于波束形成器输出的单通道方法)。接下来,我们简要回顾一下传统的噪声估计方法,这些方法对于降低噪声性能至关重要。在本节末尾,对语音增强中的性能评估方法和常见评估方法进行了理论综述。第三节介绍了STFT域中降噪方法的最新进展。这包括在STSA估计器中使用的新语音先验技术的发展,噪声功率谱密度(PSD)估计的最新进展,短时调制域中的语音增强以及语音频谱相位的估计。此外,作为多信道情况下最重要和最具挑战性的问题之一,还回顾了用于估计噪声PSD矩阵的最新方法。第四节包括本文的简要总结以及重要结论
Ⅱ.背景
在本节中,我们简要回顾了为减少STFT域中的噪声而开发的有关单通道和多通道方法的常规文献。 如第三节中进一步详细讨论的那样,这有助于阐明普遍问题,并了解该领域进一步发展的动机。 由于它们在应用程序和处理策略上的差异,我们根据用于获取嘈杂语音(即单通道和多通道)的麦克风(通道)的数量对STFT域方法进行分类和介绍。
单通道方法:
尽管其固有的性能限制和对原始语音信号的失真,单通道方法仍然是语音增强的一个不断发展的研究领域。因此,我们在本节中概述了传统的单通道降噪方法,这也为第三节提供了一个基线。假设噪声损坏的语音x(t)由纯净的语音s(t)和附加的噪声v(t)组成,我们可以写成:
(1)
在对x(t)进行采样后,可以通过将x()分割为重叠的帧,将帧乘以适当的分析窗口函数,然后对每个帧进行DFT来实现所得离散信号x()的STFT,公式如下所示:
(2)
其中w(rho;)为窗函数,N为样本的帧长,Z为样本的帧位移,k和l分别表示频率bin和时间帧指标。通常,一个汉明窗口函数可设置其帧长度为20-40 ms,帧重叠(即Z/N)为50%或75%,以此作为窗函数来实现STFT分析。我们调用(1)中的加性噪声模型,在STFT域中得到如下等价表达式:
(3)
其中、分别表示s(t)、v(t)的STFT系数。假设纯净语音和噪声之间的独立性以及不同频率区间和时间帧之间的独立性,降噪的目的是提供纯净语音的STFT估计值,记为 ,尽可能接近纯净语音。
1)谱减法的方法
谱减法是提出的第一类用于频域降噪的算法之一。它基于一个简单的原理,即对噪声频谱进行估计,对纯净语音频谱进行估计,然后从噪声频谱中减去噪声估计。更具体地说,假设嘈杂语音的相位与纯净语音的相位相似,则可得:
(4)
式中,|.|为振幅,为的相位。请注意,在(4)中,噪声对纯净语音相位的影响可以忽略不计,而在实践中,纯净语音相位的可用性或者用更好的估计取代可以提供进一步的质量改进。由于噪声估计的不准确,,即相减项,可以取负值,通常用半波整流来减轻这种影响。这种矫正会导致一种被称为“音乐噪音”的现象,它会在很大程度上降低语音质量。这个问题一直是过去发展更先进的谱减法的主要动机之一。
在实际应用中,由于大多数噪声估计方法都是为了估计噪声谱方差(定义为),因此,谱减法通常是在功率域而不是在幅值域来制定的。在这方面,纯净的语音振幅的估计可以得到如下形式:
(5)
其中是噪声谱方差的估计,即所谓的PSD。很明显,谱减法的性能受噪声PSD、估计精度的控制。由于估计的语音振幅可以写成带噪声的语音振幅的线性函数,因此通常倾向于用增益函数来表示频谱估计技术。在这个意义上,(5)中估计量的增益函数可以表示为:
(6)
为了更好地理解谱减法的概念,这种方法的基本形式框图如图2所示。可以观察到,在这个框架内,只有谱振幅增强了,而谱相位保持不变。
谱减法领域最重要的进步之一是首次在[33]引入了人类听觉系统的掩蔽特性。屏蔽属性实质上是由噪声屏蔽阈值建模的,在存在语音的情况下,听众可以容忍该阈值以下的噪声。 在广义谱减法中,例如 [35]-[36],存在控制降噪量,语音失真和残留音乐噪声之间权衡的参数。 在[33]中,提出了一些基于噪声掩蔽阈值的方案,以便在感知上调整辅助语言参数。 其中,通过对语音频谱图的研究以及主观听觉测试,证明了与不对减法参数进行自适应调整相比,所得到的增强语音对人类听众而言更令人愉悦。
谱减法算法计算简单,实现速度快,适用于实时应用。然而,减法规则是基于一个错误的假设,即干净的语音和噪声之间的交叉项是零。换句话说,考虑到(5)和使用的事实,语音的平方振幅并不准确等于,在减法规则中必须考虑语音与噪声的交叉项。在[37]中,针对谱减法的这一缺点,提出了一种几何方法(与统计方法相反)来处理谱减法。在该工作中,利用纯净语音和噪声之间的相位差,得到了谱减法规则作为增益函数。由此产生的增益函数取决于两个关键参数,即先验信噪比和噪声PSD,其性质与[16]中提出的MMSE STSA估计器相似,下文将在II-A3小节中进一步讨论。通过客观评价进一步表明,在各种条件下,几何算法的性能明显优于传统的谱减算法。文献中对谱减法的其他主要贡献包括使用过减法[38]的谱减法、非线性谱减法[39]、多波段谱减法[40]、基于mmse的谱减法[35]、扩展谱减法[41]、使用自适应增益平均[31]和选择性谱减法[42]。尽管谱减法是STFT领域中最古老的降噪方法之一,但这方面的研究仍在进行中。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238113],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。