声学回声和噪声控制的主题 取消声学回声,降低背景噪声和语音处理的选定方法外文翻译资料

 2022-02-22 20:54:42

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


信号与通信技术

声学回声和噪声控制的主题

取消声学回声,降低背景噪声和语音处理的选定方法

声学回声和噪声控制的主题 - Hauml;nsler/ Schmidt

1

声学回声和噪音控制 -

我们从哪里来,我们去哪儿了?

EberhardHauml;nsler1 和Gerhard Schmidt2

1达姆施塔特理工大学,德国达姆施塔特

2Harman / Becker Automotive Systems,乌尔姆,德国

大约150年前电话的发明扩大了人类之间的口头交流范围,超出了他们的声音所赋予的界限。然而,使用这种技术 - 并且仍然 - 与某些不便有内在联系。讲话者必须握住听筒,使得扬声器靠近他们的耳朵并且麦克风靠近他们的嘴。即便如此,语音质量也会降低,并且可能会拾取环境噪音。通过麦克风和扬声器取代手机现在位于距离讲话者很短的距离,这会使传输环路的损耗增加20 dB [6]。此外,麦克风收集的环境噪声水平增加,并且拾取来自扬声器信号的回声。

旨在弥补这些缺点的声学回声和噪声控制方法表现出悠久的历史。最初,努力的重点是开发免提电话系统。在下一节中,我们将重点介绍当今系统的一些重要步骤。我们还将指出,这些发展始终与其提案时可用的技术有关。

本章将结束对本书后续章节中报告的重要当前发展的概述,其中包括声学回声和噪声控制领域的国际专家。

问题解决的过程

要解决的问题

为了通过免提电话连接恢复面对面交谈的舒适度,必须解决三个主要问题:

必须为双方提供舒适的语音信号,而不会使电声回路不稳定。麦克风拾取的扬声器信号的回波必须降低到可接受的水平,而不会影响双向通话性能。3

必须从麦克风输出信号中去除环境噪声,使其低于双耳收听时可能容许的水平。

如果只有一个免提电话(本地)并且远程讲话者使用手机,则该方主要遭受对上述问题的不适当解决方案的困扰。当地的讲话者可能会将扬声器移近他的耳朵或增加音量 - 增加了循环开始啸叫的风险。他的回音和噪音问题最多是微不足道的,因为他的伴侣将麦克风靠近他的嘴。因此,当设计用于回声和噪声控制的算法时,必须最关注远程通信伙伴的情况。

历史上,当开始稳定电声回路的努力时,只有经典的声学装置可用。单独的单元中的扬声器和麦克风或组合在一个外壳中的扬声器和麦克风处于有利的位置。此外,封闭室的墙壁,地板和天花板必须用吸收材料处理[4]。

直到20世纪50年代才能考虑信号处理手段。此时采用了语音控制的接收和发送电路的切换,中心削波和频移。

语音控制开关

语音控制切换(见图1.1)意味着接收或发送线路中断[3]。因此,仅提供半双工通信,不可能进行双向通话。正确控制切换很困难。它基于传入和传出线的估计活动。噪音和回声可能会导致故障。话语的开头和结尾可能会被“切断”。对于谈话的“不活跃”伙伴,不可能闯入。

多年来已经提出了对损耗控制电路的相当多的修改。不是完全打开和关闭线路,而是插入有限衰减,并根据估计的活动将其分配在输入和输出电路上。用于语音活动检测的短期功率估计 - 具有不同的时间常数可以改善单词开始和结束时的性能。

所有这些修改可以减少但不能完全消除上述问题。然而,语音控制切换仍然在现代回声控制系统中使用。在具有自适应电路的环境中,国际标准要求的最小回声衰减水平只能通过这种电路得到保证。

- 沟通合作伙伴同时发言。

已经通过回声消除和/或回声抑制(见下文)提供衰减,并且必须插入标准所要求的衰减。因此,在这些情况下,如果有的话,损失控制对语音质量的影响可能难以察觉。

图1.1损耗控制电路原理

中心削波器

插入传输电路的中心限幅器(见图1.2)抑制了小输出信号[2]。如果这些信号仅包含声学回声 - 加上一些小的环境噪声 - 则完全消除回声。然而,如果回声叠加在本地语音信号上,则中心限幅器被证明是无效的并且仅使语音信号失真。同样,多年来已经提出了大量的修改 - 包括自适应阈值和自适应斜率。然而,在声学回声和噪声控制中使用中心推子似乎仍然是一种临时解决方案。

图1.2中心剪刀

频移

典型的扬声器 - 外壳 - 麦克风(LEM)系统的传递函数的大小呈现出最大值和最小值的序列,其间隔为5到10Hz(参见图1.3)。峰和谷分别在平均幅度之上和之下约10dB。基于这种观察,环路信号的频移可以增加稳定裕度[16]。这种方法特别适用于公共广播系统等系统,扬声器输出信号直接反馈到讲话者的麦克风。它也可用于免提电话应用。它的主要部件是单边带调制器,它可以将环路信号移位几赫兹。因此,固定的啸声无法建立起来。它被移动到更高或更低的频率 - 取决于调制频率是正还是负 - 直到它“下降”到LEM系统的传递函数的最小值。

在语音通信系统中,约3至5Hz的频率偏移几乎不可察觉。使用此方法可实现的稳定性增益取决于外壳的信号和声学特性。对于具有短混响时间的语音信号和房间,稳定性增益大约为3到5 dB;对于具有长混响时间的房间,它可以达到大约10 dB [15]。

10

0

10

20

dB

30

40

50

0 500 1000 1500 2000 2500 3000 3500 4000

频率,单位为Hz

图1.3。在小型演讲室测量的传递函数的绝对值。

回声消除和回声抑制

1960年[19]中最小均方(LMS)算法的发明可以被认为是自适应滤波的最重要的发展。这个程序成为当今现有的各种过滤器适应算法的“工作马”。其数值复杂度与2 N成比例,其中N是滤波器系数的数量。给定适当的步长,它不会导致稳定性问题。然而,其收敛速度很低,特别是在诸如语音信号的相关输入的情况下。

LMS算法用于回声消除或抑制的潜力在其发布后不久就得到了认可。第一个应用是取消长距离传输线上的电回波[11,17]。与声学回声相比,线路回波相当短。因此,它们需要较少的复杂滤波器。相反,声学回声的处理需要对信号处理能力要求极高的自适应滤波器。因此,在20世纪70年代后期之前没有考虑过将自适应滤波器应用于声学回声和噪声控制[14]并不令人惊讶。即使在那个时候,实现这些滤波器的信号处理技术也只能在遥远的地平线上看到。

20世纪80年代的模拟和实验室实验证实了LMS算法在相关性(例如语音信号)方面的弱点。这些结果开始了研究人员的努力,以利用递归最小二乘(RLS)算法进行声学回声处理。与LMS算法相反,该过程的复杂性随着必须调整的滤波器系数的数量N而呈二次方增长。它可以很好地处理相关信号,因为它具有“内置”去相关功能。然而,这需要输入信号的短期NN相关矩阵的反转。在这里考虑的应用中,N的范围可以达到几千。该矩阵可以通过输入信号或估计过程的性质变为单数。结果,RLS算法经常变得不稳定以进行回声处理。1989年在德国柏林举行的第一届国际声学回声控制研讨会的主要议题之一是将复杂度稳定并降低到对滤波器系数数量的线性依赖性。尽管当时和随后几年都付出了很多努力,但将RLS算法应用于声学回声消除的问题似乎仍未得到解决。情景可以通过卡通突出显示(见图1.4)。

times;

在自适应算法的世界中,LMS和RLS算法可以被认为是极端的。这适用于复杂性和数值问题,但也取决于它们对过去信号和滤波器系数设置的依赖性。LMS算法仅使用当前输入,而RLS过程根据遗忘因子回顾过去的输入。为了稳定RLS算法,可能需要为算法提供长存储器。当必须跟踪LEM系统的变化时,这是一个障碍。

仿射投影(AP)算法[13],尤其是其快速版本[9],在LMS和RLS算法之间提供了良好的折衷。与LMS算法相比,数值复杂度适度增加。语音输入的收敛速度几乎达到RLS程序的收敛速度。

图1.4“手上的麻雀比屋顶上的鸽子更好”(Helmut Lortz教授)。

这些属性是通过优化滤波器系数来实现的,不仅针对当前输入信号 - 如LMS算法所做的那样 - 而且还针对输入前的M 1进行优化。M称为算法的顺序。对于M = 1,它等于LMS程序。与RLS算法一样,AP方法需要矩阵的反演。然而,这只是MM大小。对于语音输入,M可以以2到5的顺序选择。相比之下,在这种情况下,RLS算法将需要NN矩阵的反转,其中N为1000。

minus;

times;

times;

回声消除

通过使用试图匹配LEM系统的滤波器的输出来实现回声消除(参见图1.5)。由于后者不断变化,因此滤波器必须是自适应的。

在回声消除滤波器(ECF)的开发过程中,无论是横向(FIR)还是递归(IIR)滤波器更适合于对LEM系统进行建模,都会进行冗长的讨论。由于长脉冲响应必须由ECF建模(见图1.6),因此IIR滤波器似乎最适合乍一看。然而,在进一步检查时,脉冲响应呈现出非常详细和不规则的形状。为了实现足够好的匹配,副本必须提供大量可调参数。一些研究表明,与FIR滤波器相比,IIR滤波器不能提供足够大的优势来证明控制其稳定性的巨大成本[10,12,20]。支持FIR滤波器的更重要的论点是FIR滤波器的自适应算法是可用的,并且这些滤波器的稳定性不需要额外的控制。

图1.5回声消除原理。

图1.6在办公室(左)和汽车(右)测量的LEM的脉冲响应。采样率为8 kHz。

控制滤波器适应

从控制工程的角度来看,回声消除滤波器的适应性等同于高度复杂系统的识别。为了使事情变得更加困难,必须在信噪比经常低于0 dB的环境中进行调整。一个简短的例子可能有助于说明任务的复杂性:假设误差信号(见图1.5)突然上升。这可能有两个原因:

本地发言人开始说话或开始发出当地噪音。

当地发言人改变了他的立场,从而改变了LEM系统的冲动响应。

仅依赖于麦克风和ECF的输出信号的自适应滤波器的控制不能区分这两种情况。然而,反应必须是直径的:在第一种情况下必须冻结适应性,而在第二种情况下必须尽可能地打开适应性。没有附加信息,自适应滤波器的算法无法处理这种情况。

该信息必须来自各种数量的估计。其中大多数不能直接测量。与当前可用的处理能力和处理速度无关,这些估计的可靠性关键取决于估计可以基于的信号段的长度。这仅仅意味着可能需要延迟控制动作,直到可靠的估计可用。在错误的控制信号导致滤波器系数快速发散的情况下 - 如上面给出的例子的第一种情况 - 基于临时估计的快速动作是必要的,以防止“危险”情况。

在这方面,应用导致滤波器系数的高速收敛的自适应算法的问题成为另外的考虑因素:快速自适应需要可靠且快速的动作控制结构。然而,后者的反应时间受到获得足够长的信号段所需的时间的限制。如果不满足这个条件,那么不会像“赛马一样紧张”的算法可能会产生更好的结果。

回声和噪声抑制

通过回声消除,在普通办公室中可实现的回声衰减限制在最多30 dB。这是由于热波动[5],A / D和D / A转换器内的非线性,电声转换器[18]内,以及最后,回声消除滤波器的长度不足。为了改善回声衰减,需要在传输电路中使用滤波器(见图1.7)。根据语音信号的频谱调整该滤波器的传递函数。可以使用类似的滤波器来抑制麦克风拾取的环境噪声。然而,必须根据残余回声和噪声的不同特性来调整两个滤波器的系数。

与通过与LEM系统并联的滤波器的回声消除相反,回声和噪声抑制影响发送的语音信号的质量。因此,始终需要在语音质量和回声和噪声抑制之间进行折衷。

最先进的声学回声和噪声控制是数字信号处理中最具挑战性的问题之一。许多作者证实了这一说法。过去三十年来研究和开发的努力势不可挡。结果,围绕“经典”单通道免提系统的问题得到了很好的理解并基本上得到了解决。

图1.7回声和/或噪声抑制原理。

表现不佳的系统仍处于使用状态这一事实似乎取决于两个原因:消费品的销售价格以分数计算。必须以绝对最低的成本实现免提功能。此外,高质量回声和噪声控制系统的优势在于远程通信伙伴;他不是支付系统费用的人。

立体声系统仍然提供开放式问题。由于两个信号可能完全依赖于每个信号的事实,ECF的系数的最佳设置不是唯一的。通过人为地扭曲一个或两个信号来发现一种补救措施[1]。幸运的是,真实系统表现良好,只需要很小的失真。从概念的角度来看,更“优雅”的解决方案似乎是可取的。实现这一目标的有希望的方法是当前研究的主题。

与处理能力的增长并行,需要越来越复杂系统的新应用程序进入研究人员的视野。先进的方法不仅基于测量和估计的信号,还基于对基础过程的专业知识。

提出了用于滤波器自适应的新算法,其针对回声和噪声控制过程的特定属性而定制。

多麦克风和/或多扬声器配置为回声和噪声控制问题提供了额外的自由度。麦克风阵列允许定位和跟踪扬声器。噪声源同样适用。所有这些方法旨在改善音频信号的信噪比。利用扬声器阵列,产生辐射图案,使得麦克风位于声音强度的最小值内。两种阵列方法都能够减少回声问题。由于便宜的麦克风的电声特性表现出相当大的差异,因此自动缩放改善了麦克风阵列的性能。

声源分离的方法将各个扬声器与语音信号和噪声的混合分离。正在研究这项任务的盲目方法。

与诸如谱减法之类的“经典”过程相比,卡尔曼滤波器的应用在降噪方面提供了明显更好的结果。子带中的处理克服了滤波器的复杂性问题。

基于用于语音产生的模型和人类声音感知的特性,提出了用于增强超出仍然广泛使用的电话语音质量的语音信号的方法。利用用于窄带和宽带语音信号以及掩蔽特性的码本,可以欺骗人耳,使得在不使用任何辅助信息的情况下处理窄带语音信号产生收听宽带语音的印象。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[443447],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。