Article
Towards Contactless Silent Speech Recognition Based on Detection of Active and Visible Articulators Using IR-UWB Radar
Young Hoon Shin 1,2 and Jiwon Seo 1,2,*
1 School of Integrated Technology, College of Engineering, Yonsei University, 85 Songdogwahak-ro, Yeonsu-gu, Incheon 21983, Korea; yh.s@yonsei.ac.kr
2 Yonsei Institute of Convergence Technology, Yonsei University, 85 Songdogwahak-ro, Yeonsu-gu, Incheon 21983, Korea
* Correspondence: jiwon.seo@yonsei.ac.kr; Tel.: 82-32-749-5833
Academic Editor: Ba-Ngu Vo
Received: 3 August 2016; Accepted: 26 October 2016; Published: 29 October 2016
Abstract: People with hearing or speaking disabilities are deprived of the benefits of conventional speech recognition technology because it is based on acoustic signals. Recent research has focused on silent speech recognition systems that are based on the motions of a speakerrsquo;s vocal tract and articulators. Because most silent speech recognition systems use contact sensors that are very inconvenient to users or optical systems that are susceptible to environmental interference, a contactless and robust solution is hence required. Toward this objective, this paper presents a series of signal processing algorithms for a contactless silent speech recognition system using an impulse radio ultra-wide band (IR-UWB) radar. The IR-UWB radar is used to remotely and wirelessly detect motions of the lips and jaw. In order to extract the necessary features of lip and jaw motions from the received radar signals, we propose a feature extraction algorithm. The proposed algorithm noticeably improved speech recognition performance compared to the existing algorithm during our word recognition test with five speakers. We also propose a speech activity detection algorithm to automatically select speech segments from continuous input signals. Thus, speech recognition processing is performed only when speech segments are detected. Our testbed consists of commercial off-the-shelf radar products, and the proposed algorithms are readily applicable without designing specialized radar hardware for silent speech processing.
Keywords: IR-UWB radar; contactless silent speech recognition; articulatorsrsquo; detection
1. Introduction
Automatic speech recognition (ASR) technology has been in use since the mid-20th century and has gradually been applied in diverse fields. In its early days, ASR technology was used to perform simple tasks in applications such as automatic typewriters, automatic call center services, and computer interfaces [1]. With the improvement of its recognition performance, the scope of ASR applications has significantly expanded. However, despite ASRrsquo;s usability and convenience, the technology remains limited in terms of stability, accessibility, and security.
Because audio detection is vulnerable to external sound, stable speech recognition is not guaranteed in noisy environments. In addition, from an accessibility perspective, ASR technology is not available to all people; for example, people with speech-related disorders cannot use this technology, even though they can move their articulators. In terms of security, there exists a risk that the userrsquo;s speech content can be accessible to other people in the immediate vicinity. For these reasons, several researchers have focused on the novel technology of silent speech recognition.
Silent speech recognition is a speech recognition method that is usable even when an audible acoustic signal is unavailable. In addition to current speech recognition applications, silent speech recognition can also be applied to communications involving people with speech disorders, in noisy environments, and when greater security is required [2]. To enable speech recognition without sound, a variety of sensors have been utilized, such as electromyography (EMG) [3–5], electromagnetic articulography (EMA) [6–9], non-audible murmur (NAM) microphones [10–12], ultrasound transducers with video cameras [13–16], and ultrasound Doppler sensors [17,18].
In [3–5], the authors used EMG sensors to capture electrical stimuli from the facial muscles and recorded them for use in speech recognition systems. The advantage of this method is that it is not significantly affected by environmental interference because the sensor is attached directly to the userrsquo;s facial muscles. In [6–9], the EMA device used wired sensor coils that are attached to the surface of the articulators (e.g., the tongue and lips) while the speaker is seated with his/her head within an established magnetic field. The sensor coils were sufficiently small that they could be implanted in the userrsquo;s mouth; however, the sensor coils in the mouth were an inconvenience to the users and an established magnetic field is required to utilize this method. In [10–12], the authors focused on NAM sounds, which are low-amplitude sounds generated by the resonance of laryngeal airflow in the vocal tract and are not easily overheard by nearby listeners. A speech signal was detected using a high-sensitivity contact microphone attached to the skin; this microphone can detect tissue vibrations during speech and is insensitive to environmental noise. Nonetheless, although these contact sensor-based methods help acquire the positions of articulators or the shape of the vocal tract, they are difficult to use in many practical situations because of their inconvenience.
An alternative method of silent speech recognition combines an ultrasound transducer and a vision sensor to form a contactless silent speech interface [13–16]. This system uses the movement of the vocal tract as measured by an ultrasound transducer together with a sequence of optical images of the lips. Although this system utilizes contactless sensors, which are much m
剩余内容已隐藏,支付完成后下载完整资料
文章
基于使用IR-UWB雷达的活动和可见发声器的检测的非接触式静音语音识别
Young Hoon Shin和Jiwon Seo
延世大学工学院工学研究科,松岛区松川区85号,韩国仁川市21983; yh.s@yonsei.ac.kr
延世大学融合技术研究所,85韩国仁川市,松岛区松川路85号
*通讯录:jiwon.seo@yonsei.ac.kr; 电话: 82-32-749-5833
学术编辑:Ba-Ngu Vo
收到时间:2016年8月3日; 接受时间:2016年10月26日; 发布时间:2016年10月29日
摘要:具有听觉或言语障碍的人被剥夺了常规语音识别技术的好处,是因为它基于声信号。最近的研究集中于基于说话者的声道和发声器的运动的无声语音识别系统。因为大多数无声语音识别系统使用对用户或对环境干扰敏感的光学系统非常不方便的接触传感器,因此需要非接触和鲁棒的解决方案。针对这个目标,本文提出了一系列信号处理算法的无接触沉默语音识别系统使用脉冲无线电超宽带(IR-UWB)雷达。IR-UWB雷达用于远程和无线地检测嘴唇和下巴的运动。为了从接收的雷达信号中提取唇部和颌运动的必要特征,我们提出了特征提取算法。在我们的具有五个扬声器的词识别测试期间,与现有算法相比,所提出的算法显着地改善了语音识别性能。我们还提出了一种语音活动检测算法,以从连续输入信号中自动选择语音段。因此,仅当检测到语音段时才执行语音识别处理。我们的测试台包括商业现成的雷达产品,并且所提出的算法可以容易地应用,而无需为无声语音处理设计专用雷达硬件。
关键词:IR-UWB雷达; 非接触式静音语音识别; 咬合器检测
- 介绍
自20世纪中期以来,自动语音识别(ASR)技术已经被使用,并已逐渐应用于各种领域。 在早期,ASR技术用于在诸如自动打字机,自动呼叫中心服务和计算机接口的应用中执行简单的任务[1]。 随着其识别性能的提高,ASR应用的范围已经显着扩大。 然而,尽管ASR的可用性和方便性,该技术在稳定性,可访问性和安全性方面仍然有限。
因为音频检测易受外部声音的影响,所以在嘈杂环境中不能保证稳定的语音识别。 此外,从可访问性的角度来看,ASR技术并不适用于所有人; 例如,言语相关障碍的人即使他们可以移动他们的发音,也不能使用这种技术。 在安全性方面,存在用户的语音内容可以被附近的其他人访问的风险。 由于这些原因,几个研究人员集中在无声语音识别的新技术。
静音语音识别是即使当可听见的声音信号不可用时也可使用的语音识别方法。 除了当前的语音识别应用之外,静音语音识别还可以应用于涉及具有语音障碍的人的通信,在嘈杂的环境中,以及当需要更高的安全性时[2]。 为了实现没有声音的语音识别,已经使用了多种传感器,例如肌电图(EMG)[3-5],电磁清晰显像(EMA)[6-9],非听觉杂音(NAM)麦克风[10-12 ],具有视频相机的超声换能器[13-16]和超声多普勒传感器[17,18]。
在[3-5],作者使用EMG传感器捕获来自面部肌肉的电刺激,并记录它们用于语音识别系统。该方法的优点在于,其不受环境干扰的显著影响,因为传感器直接附接到用户的面部肌肉。在[6-9]中,EMA设备使用附接到咬合架表面(例如舌头和嘴唇)的有线传感器线圈,同时扬声器以他/她的头部坐落在已建立的磁场内。传感器线圈足够小,使得它们可以植入使用者的口中;然而,嘴中的传感器线圈对用户是不方便的,并且需要建立的磁场来利用该方法。在[10-12]中,作者关注NAM声音,这是由喉部气流在声道中的共振产生的低振幅声音,并且不容易被附近的听众听到。使用连接到皮肤的高灵敏度接触式麦克风检测语音信号;该麦克风可以在语音期间检测组织振动并且对环境噪声不敏感。尽管如此,尽管这些基于接触传感器的方法有助于获取咬合架的位置或声道的形状,但是由于它们的不便,它们在许多实际情况下难以使用。
静音语音识别的替代方法结合了超声换能器和视觉传感器以形成无接触静默语音接口[13-16]。 该系统使用由超声换能器测量的声道的运动以及嘴唇的光学图像序列。 尽管该系统使用非接触式传感器,其对于用户比以前提出的接触式传感器更加方便,但是视觉传感器常常受到环境干扰的影响。 此外,难以使传感器模块小型化,因为该系统需要两个不同的传感器来同时检测嘴唇和声道的运动。 在[17,18]中提出了用于无声语音接口的超声多普勒传感。 该方法的潜力得到了证明,但其对数字识别任务的准确性只有33%[17]。
相比之下,我们建议应用脉冲无线电超宽带(IR-UWB)雷达作为传感器实现无接触沉默语音识别系统。 IR-UWB雷达使用超宽范围的雷达频率的电磁波,并且已经应用于各种应用,例如障碍物检测[19],穿墙检测[20-22],呼吸率的估计[23- 25]和对象分类[26,27]。 IR-UWB雷达提供了非凡的分辨率和检测精度,因为它的脉冲持续时间短。 此外,它消耗很少的功率,可以小型化,并且提供抵抗环境干扰的鲁棒性。
在无声语音识别系统中使用IR-UWB雷达的优点如下。 首先,它使用保证用户方便的非接触式传感器。 第二,它对诸如外部声音和光的环境干扰是鲁棒的。 第三,它具有足够的分辨率来检测咬合架的位置和形状。 最后,由于IR-UWB雷达模块的尺寸已经减少了多年,它可以被包含在诸如平板PC和智能手机的手持设备中。
2009年,Eid和Wallace [28]提出了使用UWB雷达系统的语音感测。 作者开发了一种用于语音感测的UWB天线,并且测量由500MHz至10GHz的频率扫描由声道反射的信号的复反射系数。 UWB天线放置在人嘴的1-2cm内,并且使用基于复反射系数的delta;响应的简单模板匹配算法进行具有十个字的概念验证实验。 然而,从我们的知识,这个想法从这第一次出版后还没有进一步发展。Lin等人[29]开发了一种多普勒雷达系统来检测声带振动信号。
他们专注于语音雷达信号采集硬件,并呈现了用于元音和词语的采集的语音雷达信号。 尽管演示了使用其硬件获取语音信号的能力,但是没有执行使用所获取的雷达信号的语音识别。 最近,Chen等人[30]提出了一种在2015年使用毫米波雷达的语音采集方法。它们的信号处理算法增强了时域波形和测量雷达数据的频谱图,但是没有执行基于增强波形和频谱图的语音识别。
在本文中,我们提出了一种信号处理方法的组合,以实现基于IR-UWB雷达的非接触式静音语音识别系统。 该概念基于这样的观察:当两个人不能与可听见的声音进行通信时,听众关注于说话者的活动以及可见声音的位置和形状。 因为很难提取整个通道的形状,我们主要集中在主动和可见的封堵器,如嘴唇和下巴,即使其他器官也可以通过IR-UWB雷达观察。 通过观察反射的雷达信号,我们发现一些与探测器的位置和形状相关的特征。 因此,我们已经开发了用于从感兴趣的目标(即,嘴唇和下巴)检测那些特征的算法。 此外,我们已经提出了一种用于检测无声语音活动的方法,从而可以自动地存储来自连续输入信号的语音段以用于语音识别处理。
本文作出以下贡献。 首先,与以前设计特殊雷达硬件以提取语音相关信号的努力不同,我们使用商业现货(COTS)雷达产品并提出使用COTS硬件容易实现的信号处理算法。 第二,使用IR-UWB雷达数据,我们的特征提取算法显着提高语音识别性能相比现有算法在我们的简单词汇测试与五个扬声器。 第三,我们提出一种语音活动检测算法,其可以从连续输入信号自动选择语音段。 该算法增强了我们系统的可用性。
本文的其余部分组织如下:在下一节中,我们描述用于实现非接触式静默语音识别系统的IR-UWB雷达信号处理算法。 算法包括预处理算法,自动静默语音活动检测算法和用于语音识别的模板匹配算法。 第3节基于实验结果评估所提出的系统的性能,第4节讨论结果,第5节给出结论。
2.方法
2.1。 概述
图1显示了使用COTS雷达产品的基于IR-UWB雷达的无声语音识别的测试台(COTS产品的详细规范在3.1节中给出)。 从发射机天线发射的IR-UWB雷达信号由扬声器的表面反射。一旦信号被接收机天线接收,来自周围环境的不期望的反射信号(其被称为杂波)需要被减小。在杂波减少之后,我们的系统从反射信号检测并提取关于感兴趣的目标(即,嘴唇和下巴)的某些特征。 因为信号也被目标周围甚至面部内的不想要的点反射,所以来自接收信号的目标特征提取(也称为目标检测)不是平凡的任务。我们的目标检测算法提取关于嘴唇和下巴的位置和形状的必要特征。
基于所获得的特征,通过模板匹配算法识别静默说出的词。 只有当用户移动他/她的咬合架时,才需要执行该语音识别处理。 因此,我们提出了一种自动检测无声语音活动的方法。 该方法由两个步骤组成。 首先,检测用户的一般移动。 一旦检测到一般运动,该算法检查运动是否是由于咬合架的运动。 当运动被确认为咬合器运动时,开始语音识别处理。 我们的无声语音识别系统的信号处理流程如图2所示。
a b
图1.基于IR-UWB雷达的无声语音识别测试台:(a)字体视图; (b)与用户的侧视图。 发射的信号由面上和面内的多个点反射。 IR-UWB雷达信号可以穿透皮肤。
图2.所提出的系统的信号处理流程的框图。
2.2.预处理算法
2.2.1.IR-UWB雷达波形模型
所提出的方法使用配备有两个天线的IR-UWB雷达:一个用于发射机,另一个用于接收机。 当从发射机发射的电磁波被目标(例如,嘴唇和下巴)散射时,接收机天线接收反射波。 从这个接收的信号,我们可以估计目标的位置和形状。 在发射单个脉冲之后,期望雷达接收多个反射和失真的脉冲。 在这些反射脉冲中,某些脉冲从目标反射,但是通常被称为杂波的其它脉冲是从周围环境反射的不想要的信号。 因此,重要的是去除接收信号中的杂波以正确地分析感兴趣的目标。
脉冲雷达有两个时标,称为“快速时间”和“慢时间”[31,32]。 快速时间tau;与发送每个脉冲之后的接收信号的采样周期相关。 接收信号的采样值可以存储在二维矩阵的行中。 慢时间t与发射脉冲之间的间隔有关。 每个脉冲在脉冲补充间隔之后周期性地传输。 在对与第一发射脉冲相对应的第一接收信号进行采样之后,填充二维矩阵R的第一行。 在对与第二发射脉冲相对应的第二接收信号进行采样之后,填充矩阵的第二行,等等。
接收的模拟信号r(t,tau;)可以由以下等式[25]表示:
其中p(tau;)是归一化的接收脉冲,Ai是第i个接收脉冲的信号幅度,tau;i表示第i个接收脉冲的到达时间。 从感兴趣的目标反射的脉冲和从环境反射的不需要的脉冲(即,杂波)在等式(1)中不容易分离。 它们都是接收脉冲,因此由Aip(tau;-tau;i)表示。 在慢时间t = mTs(m = 1,2,...,M)和快速时间t = nTf(n = 1,2,...,N)中周期性地采样接收的模拟信号, 采样值存储在矩阵R中:
R[m, n] = r(mTs, nTf ) (2)
包含原始接收的雷达信号的矩阵R可以如图3所示可视化。因为作为慢时间的观测时间在x轴上,并且与快速时间相关的距离 ,在y轴上,图3中的可视化与RT匹配。
图3.原始接收的雷达信号示例,对应于:(a)单词“two”的沉默发音; (b)单词“five”的沉默发音。“two”的发音的近似开始时间(约0.4s)和结束时间(约1.1s)是清楚可见的,但是它们对于该原始数据中的“five”不是非常清楚。
图3a中显示了词“two”的无声发音的原始雷达数据。因为嘴唇在发出“二”时靠近雷达,在发音期间测量的距离减小。这种现象在约0.4s和1.1s之间是清楚可见的。向下的曲线表示到物体的距离减小。注意,在图3a中存在具有高信号幅度的若干水平曲线。这是因为即使我们瞄准嘴唇和下巴,发射的脉冲被面部上和内部的多个点反射。另一个观察是信号幅度的减小,在发音期间由黄色和绿色指示。这是因为嘴唇和下颌在离雷达最近距离处的表面积现在几乎由单独的嘴唇的表面积决定。在这种情况下,钳口对表面积的影响很小,因为嘴唇向前移动,并且与钳口相比现在更靠近雷达。在由唇缘的移动引起的最近距离处的这种减小的表面积导致接收信号的信号幅度减小。当然,这种振幅变化之后的实际物理现象是复杂的,但是我们可以理解,振幅变化至少与咬合架形状的变化相关。
图3b显示了“五”的情况,结果与“二”的情况非常不同。 现在嘴唇保持在几乎相同的距离,并且下巴向下下降。 因为这种下巴运动垂直于朝向雷达的方向,所以距离测量显示出很小的变化。 现在在距离雷达最近距离处的嘴唇和下巴的表面积在发音期间稍微增加,因为下降的下巴。 因此,信号幅度不像在“二”的情况下那样减小。事实上,在发音期间信号幅度略微增加,即使在图3b的尺度下它不是清楚可见的。
2.2.2.杂波减少
在本研究中,杂波被定义为由多个背景点的反射产生的信号,这些背景点不是感兴趣的目标上的点,以及由发射机和接收机天线之间的耦合引起的干扰。 我们应用基于信号平均的现有杂波降低算法[33]。 令r [n]表示矩阵R的行。向量r [n]的长度是N,其是在分析中使用的“快速时间”历元的数量。 没有在雷达前面放置任何物体,我们可以获得表示从背景点反射的雷达信号的原始信号矩阵B. 然后可以如下计算杂波削减的信号y [n]:
其中,MB的是在其上的信号被平均为杂波减少“慢时”历元的数量,和MB= 100是在我们的实验中使用。
图4.对应于以下内容的杂波削弱信号的示例:(a)词“two”的沉默发音; (b)单词“five”的沉默发音。 原始雷达数据与图3中的数据相同。
在下面的讨论中,y(tau;)是在杂波降低之后的单个雷达扫描(即,对于单个发射脉冲)的接收模拟信号,并且y [n]
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[484787],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。