一种用于语音去混响进行谱相减的新方法外文翻译资料

 2022-12-16 11:42:17

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


一种用于语音去混响进行谱相减的新方法

摘要:

一种新的单声道的方法用于抑制最近的房间里的混响语音信号,是基于一种谱相减的方法。混响语音信号抑制的问题不同于经典语音降噪处理因为“混响噪声”是不固定的。在这篇论文中,一种对于非固定的混响噪声的能量谱的新的估计的使用,是基于一种相近噪声的统计模型。这种算法被用于在真实的混响信号测试。带有不同的Tr的RIRs都一致的显示出用一点信号的分解就可以完成重要的降噪处理。而且,当这种方法被用于一种自动的语音识别系统的前端时,这个算法将会在多种混响环境中的自动的语音识别方面带来显著的改进。

1.引言:

混响是一种出现在封闭的空间中声音的噪声,是声音通过在这个房间的墙上和物体上多种反射和衍射而形成的。当一个人在一个房间里说话时,这些多元的回声会叠加到原来直接的的声音里,使得声音的时间谱和频谱的特点模糊不清。它的影响会被靠近信号源的一个麦克风的使用所减轻。但是,这个对于“支持自由'应用是不方便的,例如人机交流。事实上许多对于一个遥远信号的采集的应用是要求在混响的出现问题上表现的不太好。像自动的语音识别和自动的说话人的核实就是一个例子。去混响对于那些听力受损的人是有帮助的因为混响会降低语音的可懂度。

2.直到现在语音去混响问题已经得到了许多来自70家机构的关注。混响的过程可以被当成一个过滤的过程的模型:语音信号会被发射器、接收器和周围环境所规定的声音的频道的冲激响应所卷积.像这样的一个冲激响应就指的是一个房间的冲激响应(RIR)。开始的一系列方法是基于这个模型的,旨在对这个混响的语音信号反卷积。但是,反卷积的方法要求这个冲激响应知道的很精确,而且反卷积在冲激响应中会有一点强的变化。在这些应用中考虑到这个,冲激响应是未知的而且会变化。比如部分信号频段的包络谱的反卷积技术或者包络谱的扩展方法对于冲激响应的变化影响力更强。这些技术旨在提高混响信号中的调制深度。这些方法被建议用来处理噪声和混响。

3.另外的一系列方法是利用混响噪声的空间与方向特性,这种噪声被认为是一种附加噪声。阵列处理技术一直被提出。由在动物和人类的听觉系统中听力机制所引出的方法一直被建议要和经典的阵列处理方法相一致。利用对后期混响的空间去相干的一组算法是源于艾伦,伯克利和布莱尔的工作成果。

4.在这篇论文中,我们集中对于那些部分重叠遮盖的语音混响的重要影响。之前音位的能量被拖尾了较长时间,然后和下一个音位重叠了。这种就导致了在音位的频谱特点中的模糊不清和被遮盖的现象。

5.这种以拖尾现象为基础的真实的物理过程是对房间的边界和障碍物的声波的多种反射与扩散,是与后期混响相符合的。因为那些被空气和反射器吸收的音位,混响的能量会以指数形式衰退,会带有一个由房间特点决定的时间常数。

6.从直观上来说,一个音标的混响尾部的能量随时间的改变将会有一个指数的衰减形式,是和房间里的冲激响应相似的。对混响信号的频率进行划分将会取决于激励的能量频率的划分,那就是被认为的音位的频谱。

7.所以语音信号的能量拖尾到混响信号的尾部可以被粗略的从先前的音位和房间混响周期的信息中建立模型。这个模型可以依次被用来估测和抑制来自于混响语音信号中的部分混响能量。

8.这个接下来的研究将会通过使用一种后期混响的统计模型来是这些想法正式化。这个模型用第二部分详细说明,然后导出一个公式,是把信号的混响部分的能量频谱密度和混响信号的能量频谱密度联系在一起。第三部分然后把基于这个模型上的去混响信号的算法细节化。在第四部分算法的公用将会从各个不同的情况下被评估。第五部分则提出了一个对于该算法的可能改进的地方的讨论。

二、模型

2.1 房间冲激响应的模型

房间的冲激响应被建立模型作为一个非稳态的随机过程的结果:

for tgt;=0,

for tlt;=0 ,

当b(t)是均值为0的高斯稳态噪声时,刚开始被认为近似于没有冲激信号的,这个Delta;是与混响的周期Tr相联系的通过这个公式: 。这个模型是被Polack提出的,在摩尔之后,这个模型被用于人工混响中。

2.2 混响信号的模型

让我们认为S(t)是无回声的语音信号,然后x(t)是混响的语音信号,因为通过房间冲激响应RIR h(t)和s(t)的卷积:

因为h(t)是随机的。然后,如果s和b被认为是独立的随机过程量,则x在时间t上的自相关性为:

因为b被认为是一种能量为的白噪声:

delta;代表的是狄拉克函数(单位脉冲函数)。

公式3可以得到:

现在让我们考虑一下在延时的时间t T下x的自相关性:

这个公式可以有不同的解释。他们在下一段中会被具体讲到。

2.3解释

从公式(4)中可以看到:

x在t T的时间处的自相关是那两项之和。第一个值是取决于之前的混响信号,而第二项则是取决于在时间t和t T之间的无回声信号。第一项被认为导致了信号的重叠遮盖,因为它的能量在[t,t T]时间间隔里是完全取决于在t时刻之前的混响信号。

另一个对于公式4中两项的解释是:让h(t)被分解成两部分,和,所以:

和就是s(t)分别和和卷记得结果。如果T相较于Tr而言要小很多,是由直流信号和一些少量的早期回声构成。则第一个近似值被看作是直流信号,而是和所有的后期回声相对应的,那也是和后期混响相对应。可以看出公式4中第一项和,第二项是和公式4可以相等的被写为:

在公式中信号在一段时间里被看作稳态的,这段时间相比于Tr是较短的。这个就证明了一个事实,指数的衰减是非常慢的,而语音是准稳态的。

在信号被认为是稳态的基础上让D成为典型的时间间隔。我们认为Dlt;=Tlt;lt;Tr.实际上,D的数量级大约50ms左右,混响时间的数量级在大约1s.在这些近似值中,在短期的能量频谱密度方面和公式6.7相当的部分是:

3.算法

3.1概述

算法的概述在图 1中被表述。信号以 8KHZ的抽样频率数字化。接下来,不连续的时间指数被用 n或者 m表示,还有不连续的频率指数k.

混响信号分解成一个短时傅立叶变换滤波器组。这个分析窗口是一个128点的哈明窗口(滤波器的通频带),在两个连续窗口的叠加部分被设置为75%。每个框架是从0填充到256点为了避免环绕误差。混响噪声的频谱能量密度是根据公式9被估计出,在3.3部分被表述。这个估计值的平方根是从混响信号的幅度谱中减去,产生去混响信号的幅度谱的一个估计值,实际上这被认为是一种短期的频谱衰减,是和频谱的减法是相等价的。这个修改在3.2部分中被具体表述。这个被估计的去混响信号然后从估计的幅度谱和噪声相位中复原,通过这个叠加技术。

3.2 短期的频谱修正

对于幅度谱减法的公式:

m是次能带的周期指数,k是频率指数,然后: ,

是信号的幅度谱的预估值,是噪声的平均功率谱的估计值。

在一个对不同的短期的频谱衰减算法的相对研究中,Ayad总结出这个幅度减法具有非常好的效果,相较于其他的复杂方法。这个方法在这篇文章中被保留下来。

产生于这些实施过程中的问题之一是实际上,这个会是一个负值。这是由于是平均噪声频谱的估计值。但是在中的噪声成分是比平均值是要低的。这就导致了对于这个估计值负值情况当在规定的框架中没有或者只有很少的能量。为了解决这个问题,一个一般的使用方案是把 的值设置为0,但是这个非线性的矫正会产生一个特定的残留噪声,经常把它称作“音乐噪声”因为它的知觉特征。

无论什么时候信号产生,”音乐噪声“就会被标记。但是这是可以很清楚的观测到的在无声的时间段内。事实上,有时只有噪声时,的一些频率波段会比这个平均的

要包含更多的能量。频率减法的作用是把所有其他的频率波段都设置为0,只有用更多的能量衰减这些波段。经过处理的信号的频谱所以就包含峰值随机出现在被隔离的频率中,维持了这个分析窗口的长度的平均的持续时间。

许多解决方法在文献中被提出来用来解决这个音乐噪声的问题。在这篇文章中两种标准的修改被加到算法中来减弱“音乐噪声”的问题。第一种包含了平均了这一项在信号的获取的计算中,由于在中的噪声作用产生了随机变化的减少。第二种包含了使用一种谱层,在[41]中被提到。

滤波

在公式10中会被替代通过:

这一项在公式11中被定义为:

它通过一个滑动平均值被估计:

这个运算符是防止包含没有物理意义的的负值。

谱层

代替了把的负值估计设置为0,的数值要比一个阈值要小,是等于,被设置成这个阈值。实际上lambda;=0.1,是和 20db的衰减相对应的。

在算法中被使用的输入值最终是:

3.3 混响能量频谱密度的估计

从公式9中,可以看见两项都需要估计混响能量的频谱密度,在图2中可以看到:模型中的参数Delta;(是和混响的周期Tr相等的)和过去的混响信号的能量频谱密度。

然后:

因为信号的稳态的持续时间被假设为大约20ms,通过在第2.3段中近似值,T被设置为:Tasymp;50ms.

过去的混响信号能量频谱密度的估计

过去混响信号的能量频谱密度是通过平均信号的周期来估计出来的。通过下面的公式用一个滑动平均值来估计:

如果beta;是趋近于1的,那么能量频谱密度的方差是很小的,但是相同的平均持续时间会很长。由于信号是不稳定的导致这个平均周期会保持很小。当准稳态的假设被考虑到时beta;应该被选为一个中间值,以至于这个估计值的方差可以尽可能的小。事实上,beta;被设置为0.9.

Tr的估计

混响的时间是房间的一个特点。如果系统的环境变化时间也会改变,但是它的改变被认为是一个很慢的过程。所以只需要不时的估计,假设它在更新周期内是不会变化的。Tr的估计包括两个不同的阶段。

噪声消除的检测

在混响信号的能量是以指数形式衰减的地方。这个是分两步走的:第一步信号的平滑的能量的包络线正在降低的区域会被自动的检测到。在这些区域当中,只有最长的那个会被选择。它们被认为是和语音信号中的噪声消除是一致的,所以指数的衰减对应的是房间中的混响时间。

在噪声消除状态下Tr的估计:在下降的时间里平滑的能量的包络线的对数的斜率通过线性回归估计出来。

在图3中,在混响的相位知道的基础上对于Tr的滑动估计的例子。

在上面的窗口中,一个混响语音句子的平滑的能量包络线是和被自动选择的指数衰减的区域一道被表示。在较低的窗口中Tr的数值在这些区域里被估计。这些估计值被发现是和在[42]中Schroeder提出的方法里基于房间冲激响应对Tr的估计值相符。

4.结论

4.1评估的方法

混响语音信号是通过真正的房间脉冲的无回声相位卷积获取的,通过戴在一个仿真头上的两个近距离放置的全方位的麦克风来测量的。6种不同的真实的房间脉冲被使用,混响的时间是从0.4s到1.7s。RIR3,RIR5,RIR6是和在相同的房间中不同的声音频道相对应的。为了评估这个算法的效率我们已经使用了4种客观的测量方法。

输入输出SNR的增益[8]:我们使用不同的方法在[8]中提出。混响信号被分解到一个直流信号和一个混响部分的总和,通过用RIR的一开始的5ms和用这个RIR来减去最初的5ms卷积这个消声信号获得。当这个完整的混响信号被处理后,这个时间在变,独立信号的增益会被记录下来。这个记录下来的增益会被分别应用到这个直流信号和混响部分,给出各自的和,这个SNR的增益然后被定义为:

它会在语音活动的周期内进行全局的计算。

噪声消减:当在一个框架中没有语音能量时,噪声消减就可以以一些相同的方式进行计算:

在语音和无噪声区域是通过手动分割给分开的?。

失真:一个在系统的输入和输出端的直流信号中的CD被用来作为测量失真的工具。只有前8个cepstral 率是和第一LPC率相联系的,要被纳入考虑范围。所以这个距离被用来反应出不同点在两个信号的格式结构上。这个测量是和SNR的增益一样,反映出语音质量是怎样被算法影响的。

语音识别分数:一个商业上可获得的单个的单词语音识别器最初是被训练在一个无回声的条件下一个男说话者说出一套240个单个的单词,它达到了99%的识别率。这个识别分数然后被用在同样一套的单词中进行测量,通过RIR中的一个卷积来进行人工的混响。因为这个和训练的条件不同,所以识别率是下降的很明显。这个识别分数然后在经过处理的混响信号中被测量。在最后两种测量的不同之处就显示了算法的优点。

4.2性能

每次性能的测量通过这个现有算法(指的是“单声道'算法)和一个参考算法,指的是“Bloom”算法。

4.2.1实体测量

在图4的低窗口?显示的是在无回声的条件下一句法语:——--的波形。而上面的窗口显示的是当混响信号被加入时的说相同的话的波形图。而中间的窗口显示的是在被我们的算法处理过了以后的信号。这个混响信号的尾部的衰减还是很明显的。

这个单声道算法的性能在表2和表3中体现出来。表2显示的是没有对Tr进行在线估计的算法的结果(Tr的真实数值被加入到算法中)。

作为比较,这个“Bloom”算法的性能,在极其相似的条件下在表1中体现出来。

表3显示的是包含对Tr在线估计的算法的结果。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[30611],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。