英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
基于麦克风的声源定位延迟估计研究
Zhang Qinqin
南京邮电大学,中国 南京 739090351@qq.com
Zhang Linghua
南京邮电大学,中国 南京zhanglh@njupt.edu.cn
摘要:为了解决基本互相关(BCC)方法在时延估计中的精度和鲁棒性差的问题,提出了一种基于广义互相关的改进时延估计算法,并对其进行了仿真研究。从抗噪声和抗混响鲁棒性等方面进行算法研究。然后结合麦克风阵列结构,实现了基于时延估计的声源定位。仿真结果表明,改进后的方法在噪声和混响情况下具有较高的精度和较小的源位置计算,可用于声源定位。
关键词:声源定位;时间延迟估计;麦克风阵列;广义互相关
- 引言
声源定位技术是使用声学和电子设备来接收目标声学信息以便确定目标声源位置的技术。麦克风阵列可以形成一个光束来拾取光束中的信号,从而消除光束外的噪声并有效地提高接收语音的质量,非常希望在空间放置多个麦克风来接收语音和环境信息[1]。
目前,基于麦克风阵列的声源定位技术已成为国内外研究的热点,在视频会议,监控系统,人体机器人对话设备等诸多领域有着广泛的应用。
现有的声源定位方法大致可分为三类[2]:基于导向波束形成的方法,基于高分辨率谱估计的方法和基于时延估计的方法[3]。到达时间差(TDOA)基于时延估计的定位方法具有较高的准确性和实时性,在实践中易于实现[4],因此大多数研究人员采用该方法。然而,这种方法也有其缺点:时间延迟估计和声源定位是通过两个步骤完成的,因此时间延迟估计误差将继续到声源定位的下一步,因此累积误差将影响性能。整个系统。但在这三种声源定位方法中,基于时延估计的声源定位方法复杂度最低,定位精度最高,经过适当改进后,可以很好地应用于实际环境[5-6]。
- 时间延迟估计
- 信号模型
两个麦克风的接收信号模型可以假定为:
(1)
(2)
其中是声源信号,和是衰减因子,和是加性噪声信号,是要估计的时间延迟[7]。
- 广义互相关
在真实的室内环境中,噪声和混响会削弱BCC功能的最大峰值,甚至导致假峰值,因此很难检测到峰值。 基于广义互相关方法的改进算法在频域中给出加权操作以突出相关信号。 其算法流程如下所示:
FFT
用窗口分析
交叉功率谱
Time Delay
加权频 率
IFFT
峰值检测
FFT
用窗口分析
图:1广义互相关的算法过程
现在,信号 和的互相关函数可以表示为: (3)
其中是交叉功率谱, 表示频率加权。
在实践中,我们应该根据不同的情况选择合适的加权函数,以使具有相对尖锐的峰值。以下是一些常用的加权函数[8]:
Names |
Weighting functions |
CC |
1 |
Roth |
|
SCOT |
|
PATH |
|
Eckart |
|
ML/HL |
|
表1:常用加权函数
- 业绩指数
本文研究了不同权重的广义互相关方法的抗噪声和反混响。
TDOA的估计性能通常通过以下指数来衡量[9]:
1) 均方根误差(RMSE)
, (4)
其中TO是实际延迟,N lt;是估计的总数。
2)异常百分比(PAP)
如果实际延迟和估计延迟之间的差异超过2个样本,我们认为该点是异常的。 该参数反映了估计样本的不可靠程度
, (5)
(6)
为了便于表达,我们使用采样点来测量估计的延迟。
- 实验环境
TDE的性能在 房间进行测试,房间脉冲响应由图像模型方法[10]生成,麦克风位置坐标为 。在该模拟实验中,目标声源为语音信号,采样频率为16KHz,帧大小N =1024,重叠率为50%,声源位置位于 。延迟180个采样点的语音信号是用于模拟实验的另一信号。
-
- 研究算法的抗噪声
信噪比为30dB,20dB,10dB,0dB和-10dB,混响时间为100ms
图2显示了具有噪声和混响的环境中的结果
(a)PAP
(b)RMSE
图2 当混响时间为0.1秒时PAP和RMSE比较
从图中可以看出,当信噪比较大时,四种方法的性能良好,随着信噪比的降低,算法性能也越来越差。
基本互相关方法的性能下降很快,Roth加权广义互相关方法存在很多干扰,而PHAT加权和SCOT加权广义互相关仍然可以实现延迟估计,由于SCOT和PHAT加权函数取得了 考虑到两个信道的影响,因此PHAT加权广义互相关具有更高的估计精度并且表现出相对良好的鲁棒性。
研究反混响算法SNR = 10dB,混响时间为100ms,400ms,700ms,1000ms。
图3显示了具有噪声的环境中的结果和混响
- PAP
- RMSE
图3. PAP和RMSE比较,而snr为10dB,
从图3我们可以看到,在混响较低的情况下,四种时延估计算法的性能良好。 随着混响的增加,基本互相关时延估计的准确性迅速降低,但现在PHAT加权广义互相关是优于其他方法,特别是在强噪声和混响环境中。
总之,仿真结果表明PATH加权GCC方法优于其他方法。
- 麦克风阵列模型
麦克风阵列是以某种几何形状排列的麦克风阵列,在本文中,接受了以某种几何形状排列的四元素交叉麦克风,如图4所示[11]:
图4. 四元素交叉麦克风阵列
M1,M2,M3,M4的坐标是M1(D / 2,0,0),M2(0,D / 2,0),M3(-D / 2,0,0),M4(0,-D / 2,0)。,,是声源与麦克风阵列的时间差。声源与原点的距离为 ,方位角为 ,俯仰角为 。 空气的声速为 ,根据声源和麦克风阵列之间的几何位置关系,利用余弦定理,我们可以得到声源的位置坐标:
(7)
(8)
(9)
- 模拟实验
TDE的性能在被测试在5mtimes;4mtimes;3m的房间内,房间脉冲响应由图像模型方法[10]生成,四个麦克风的坐标分别位于[0.15m,0m,0m],[0m,0.15M,0m],[-0.15m,0m,0m],[0m,-0.15m,0m]。在该模拟实验中,目标声源是语音信号,采样频率为16KHz,帧大小N = 1024,重叠率为50%。为了便于表达,我们使用采样点来测量估计的延迟。
- MATLAB仿真结果
定位结果如表II所示。
表II. 基本CROSS相关的定位结果及改进方法
Acoustic source position |
BCC method |
PHAT weighted GCC |
|
|
|
|
|
|
|
|
|
|
|
|
根据该表的数据,我们可以看到改进的算法具有更高的精度和更少的误差。 位置的三个参数的测量单位不同,因此计算每个参数的误差是有分别的。在本文中,公式是采用,根据表二的数据,我们可以计算出每个参数的误差,结果如下:
BCC方法:距离误差:
仰角误差:
抑郁角误差:
改进方法:距离误差:
仰角误差:
抑郁角误差:
IV.结论
本文提出了一种基于BCC方法的改进方法,并比较了几种加权广义互相关方法的性能。 仿真结果表明,改进后的方法具有更好的抗噪声和抗混响效果。
然后,结合四元素交叉麦克风阵列,在MATLAB环境下实现声源定位仿真。 仿真结果表明,PHAT加权GCC方法优于其他方法。此外,该方法仅适用于单目标声源定位。没有研究多声源的定位,系统在抗噪声和抗混响方面仍需要一些改进。
致谢
这项工作得到江苏省教育厅重点科学研究项目(13KJA510003)和江苏省高校优先学术项目开发(PAPD)的支持。
通讯作者:Ling-hua ZHANG
Email:zhanglh@njupt. edu. Cn
参考文献
- Wu Yu. Research on the acoustic source localization technology based on microphone array [I]. master thesis. Chengdu: University of Electronic Science and technology, 2005.4
- Peng Kui. Research on Sound Source Localization System Based on Microphone Array and Application [I]. M. Anhui: Anhui University, 2014.5
- Michael Brandstein and Darren Ward, Microphone Array. Verlag, New York, Springer, 2001, pp. 158-159.
- M.S. Brandstein, 'A practical methodology for speech source localization with microphone arrays,' Computer Speech amp; Language, vol. II, no. 2, April 1997, pp. 91-126.
- Zhang Ming-han. Sound source localization system based on time delay estimation study [D]. Chongqing: Chongqing University,2009
- Tang Xiao-ming Wu Hao Liu Zhi-kun. Cross-correlation algorithm based on generalized delay estimation [I].Electro-acoustic Technology,2009.33.18) : 71-74
-
H. Knapp, G.C. Carter, “ The generalized correlation method for estimation of time delay”, IEEE Transaction on ASSP, Volume
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20644],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。