英语原文共 16 页
陀螺仪:从陀螺仪信号中识别语音
Yan Michalevsky:斯坦福大学计算机科学系
Dan Boneh:国际研究与仿真中心
摘要
我们发现现代的智能手机上的陀螺仪对手机附近的声音信号非常敏感。输出信号仅仅包含非常低频的信息(lt;200Hz)。然而,我们通过利用信号处理和机器学习的方法,证明了这些信息已经足以识别说话人的信息,甚至可以识别说话人的语言。由于iOS和Android不需要特殊的权限来访问陀螺仪,因此我们的结果表明:无法访问麦克风的应用程序和活动web内容仍然可以窃听手机附近的语音。
1.介绍
现代智能手机和移动设备有许多传感器,可以提供丰富的用户体验。如果使用的不得当,它们有时会无意中暴露用户不想共享的信息。虽然麦克风(窃听)、摄像头或GPS(跟踪)等传感器的隐私风险显而易见,但对于用户和应用程序开发人员来说,其中一些风险仍然没有引起足够的重视。尤其是,对陀螺仪和加速度计等运动传感器的访问没有受到移动操作系统的影响。也就是说,安装在手机上的每个应用程序和浏览手机上的每个网页都可以在用户不知情的情况下测量和记录这些传感器。
最近,一些研究工作指出使用运动传感器会导致意外的信息泄露。在参考文献[34]的作者提出了一种从移动设备加速计获得的步态模式识别用户的方法。在[35]中证明了利用加速计从附近键盘进行击键推断的可行性。在[21]中,作者展示了使用加速计在移动设备上进行按键推断的可能性,并提到了使用陀螺仪测量的潜力,而另一项研究[19]指出了利用陀螺仪的好处。
上述工作都集中在如何利用加速度计和陀螺仪的预期动力学响应,利用传感器获得的运动事件。本文提出了一种从陀螺测量数据中提取信息的新方法。在这篇文章,我们揭示了陀螺仪对测量声波振动非常敏感。这导致了从陀螺仪读数中恢复语音的可能性,即使用陀螺仪作为原始麦克风。结果表明,该陀螺仪的采样率高达200hz,覆盖了部分可听范围。这就增加了窃听的可能性,即使是在没有真正麦克风的情况下在电话附近讲话。
由于陀螺仪的采样率是有限的,因此不能完全从一个陀螺仪的采样数据中得到一个可理解的讲话。因此,我们采用自动语音识别的方法。我们使用多种信号处理方法从陀螺仪测量数据中提取特征,并用机器学习算法进行徐连并识别。从一组10个说话人中的识别成功率约为50%。我们还发现,当我们将自己限制在一个仅由数字发音组成的小词汇表(“1”,“2”,“3”,hellip;hellip;)时,依赖说话者的识别成功率为65%,而独立说话者的识别成功率高达26%。这个程度的识别可以允许攻击者获取大量的电话或电话旁边的电话号码的信息(例如信用卡号码、社会安全号码等)。
我们还考虑了会议室的设置,其中两个人或更多的人携带智能手机或平板电脑。该场景魏攻击者从多个陀螺仪获得同时测量的语音提供了条件。研究结果表明,将两部手机或两部手机以上的信号组合起来,可以在提高语音识别率的同时,提高语音信号的有效采样率。在我们的实验中,我们在基于数字词汇的说话人依赖的情况下,获得了77%的成功识别率。
这篇论文结构如下:在第二节中,我们简要介绍了陀螺仪的工作原理,并对其作为麦克风的特性进行了初步研究。在第三部分,我们讨论了语音分析,并描述了我们的算法。在第4节中,我们提出了一种使用来自多个设备的样本进行音频信号恢复的方法。在第五部分中,我们将讨论更多的陀螺仪声敏性的开发方向。最后,在第6节中,我们将讨论这种意外威胁的缓解措施。特别地,我们认为限制采样率是一种有效且向后兼容的解决方案。
2.陀螺仪作为麦克风
在本节中,我们将解释EMES陀螺仪的工作原理,并对其对声学信号的敏感性进行初步研究。
2.1 MEMS陀螺仪是如何工作的?
标准尺寸(非mems)陀螺仪通常由轴上的一个可转的轮组成,它可以自由地设定任何方向。根据角动量的原理,该轮可以通过抵抗方向变化来测量这些方向的变化。尽管如此,所有的MEMS陀螺都利用了一种不同的物理现象——科里奥利力。它是一种假想的力(达朗贝尔力),当从旋转参照系(很像离心力)观察物体时,它似乎作用于物体上。科里奥利力的作用方向垂直于参照系的旋转轴和被观察物体的速度。科里奥利力由计算,其中m和v分别表示物体的质量和速度,而w
为参照系的角速度。
一般来说,MEMS陀螺仪通过感应作用于陀螺仪内一个运动的证明质量上的科里奥利力的大小来测量它们的角速率(w)。通常情况下,运动的质量不断地在陀螺仪内振动。它的振动频率也称为陀螺的共振频率。科氏力是通过测量其产生的振动来感知的,该振动与原始振动运动正交。一些陀螺仪的设计使用一个质量来测量不同轴的角速度,而另一些则使用多个质量。这样的一般设计通常称为振动结构陀螺仪。
移动设备的MEMS陀螺仪主要有两家供应商: 意法半导体[15]和英维思[7]。根据最近的一项调查,[18] 意法半导体占据了80%的市场份额。根据拆卸分析表明,这个供应商的陀螺仪可以在苹果的iphone和ipad中找到[17,8],也可以在三星最新一代的宇宙(galaxy)系列手机中找到[5,6]。第二个供应商英维思拥有[18]剩余20%的市场份额。英维思陀螺仪可以在谷歌最新一代的nexus系列手机和平板电脑中找到[14,13],也可以在宇宙(galaxy)系列平板电脑中找到[4,3]。这两家厂商的陀螺仪有不同的机械设计,但都明显受到噪声的影响。
2.1.1意法半导体
意法半导体的三轴陀螺仪的设计基于单个驱动(振动)质量(如图1所示),驱动质量由四部分组成(图1(b))。它们在水平面上以一定的频率同时向内和向外运动。如图1(b)所示,当角速率作用于z轴时,由于科里奥利效应,M2和M4将在同一水平面上以相反的方向运动,如图红箭头和黄箭头所示。当角速率作用在x轴上时,由于科里奥利效应,M1和M3将沿相反的方向上下移动。当角速率作用于Y轴时,M2和M4将向相反的方向上下移动。驱动质量的运动引起相对于周围固定板的电容变化。这种变化被感知并转换成测量信号。
2.1.2 英维思
英维思的陀螺设计基于三个独立的驱动(振动)质量。每个传感器在不同的轴上感知角速率(如图2(a)所示)。每个质量都是一个耦合的双质量,向相反的方向运动。感知X轴和Y轴的质量被驱动到平面外(参见图2(b)),而z轴的质量被驱动到平面内。在意法半导体设计中,由于科里奥利力引起的运动是通过电容变化来测量的。
2.2声学效果
在MEMS领域,MEMS陀螺容易受到噪声的影响是一个众所周知的事实,这会降低陀螺仪的精度[22,24,25]。声信号通过使驱动质量在传感轴(感知科里奥利力的轴)上振动来影响陀螺仪的测量。声信号可以通过两种方式之一传递到驱动体。第一种方式,它可能引起陀螺组件的机械振动。另外,如果陀螺仪是悬浮在空气中的话,声波信号还可以通过陀螺仪封装直接影响驱动质量。在振动质量共振频率附近,声噪声的影响最为显著。在某些情况下,这种效应会使陀螺仪的测量变得无用,甚至饱和。因此,为了减少噪音的影响,供应商制造具有高共振频率的陀螺(如上所述)。
(a) MEMS结构
(b)根据角速度驱动振动质量运动
图1:意法半导体三轴陀螺仪设计(取自[16]。图版权属于意法半导体。使用许可)。
(a) MEMS结构
(b) 根据角速度驱动振动质量运动
图2:英维思三轴陀螺仪设计(取自[43]。图英维思版权所有。使用许可)。
尽管如此,在我们的实验中,我们发现频率远低于共振频率的声音信号仍然对陀螺的测量有可测量的影响,这使得人们可以重建声音信号。
2.3陀螺仪作为麦克风的特点
由于陀螺仪的声学敏感性,人们可以把陀螺仪读取的数据看作是来自麦克风的音频样本。此时应注意:一个可听信号的频率高于20hz,而在一般情况下,移动设备角速度的变化频率低于每秒20周。因此,即使移动设备在移动,也可以对陀螺仪读数进行高通滤波,只保留音频信号的效果。尽管如此,应该注意的是,这种滤波可能会导致一些声学信息的丢失,因为一些混叠的频率可能会被过滤掉(见2.3.2节)。下面我们从声学传感器的角度,即麦克风的角度来研究陀螺仪的特性。在本节中,我们举例说明了这些特点,通过实验的三星Galaxy的SIII系列中的一个意法半导体生产的陀螺仪[6]。
2.3.1抽样
采样分辨率:采样分辨率是通过每个样本的比特数来测量的。更多的比特允许我们在任何给定的时间更准确地采样信号。所有最新一代陀螺仪的样品分辨率都是16位[9,12]。这与大多数音频应用程序中使用的麦克风采样分辨率相当。
采样频率:采样频率是一个信号被采样的速率。根据奈奎斯特采样定理,采样频率f使我们能够重建频率高达f/2的信号。因此,更高的采样频率可以让我们更准确地重建音频信号。在大多数移动设备和操作系统中,应用程序能够对最高44.1千赫的麦克风输出进行采样。电话系统对8000赫兹的音频信号进行采样。然而,意法半导体陀螺仪的硬件支持高达800hz[9]的采样频率,而英维思陀螺的硬件支持高达8000 Hz[12]的采样频率。此外,所有移动操作系统都将采样频率进一步限制在200赫兹以内,以限制功耗。最重要的是,一些浏览器工具包似乎进一步限制了采样频率。表1总结了我们测试Android和iOS最新版本允许的最大采样频率,包括应用程序和运行在通用浏览器上的web应用程序的实验结果。
采样率 [Hz] |
||
安卓4.4 |
应用 |
200 |
谷歌浏览器 |
25 |
|
火狐浏览器 |
200 |
|
歌剧浏览器 |
20 |
伊奥斯 7 |
应用 |
100 |
苹果浏览器 |
20 |
|
谷歌浏览器 |
20 |
表1:不同平台上的最大采样频率
我们使用的代码示例陀螺通过web页面可以在附录b。结果表明,基于Gecko的浏览器不限制由操作系统以外的采样频率的限制,尽管WebKit浏览器和基于眨眼施加更严格的限制。
2.3.2混叠
如上所述,陀螺的采样频率是均匀的,最多可达200赫兹。这使我们能够直接感知高达100赫兹的音频信号。混叠是一种现象:当频率为f的正弦信号,其采样频率fs,对于任何整数N,抽样得到的样本数据如果是可以区分的话,就要满足频率。Nne; 0时的频率被称为图像或混叠频率。一般来说,混叠是一种不受欢迎的现象,但在这里它能使我们能够感知频率高于100赫兹的音频信号,从而从陀螺仪读数中提取更多的信息。如图3所示。
使用陀螺仪,我们记录了一个单一的280赫兹的音调。图3(a)描述了记录的信号在频域(x轴)随时间的变化(y轴)。光谱图中较浅的阴影表示在相应的频率和时间值上有较强的信号。可以清楚地看到,在80hz频率下有一个强信号在1.5秒左右被检测到。这是280 Hz-tone的混叠。请注意,在混叠频率下,混叠音调与实际音调无法区分。图3(b)描绘了130赫兹至200赫兹之间多个短音调的记录。同样,可以在130 - 170 Hz对应的混叠频率处看到强信号。我们也观察到一些较弱的别名信号,不对应的基本频率的录音音调,也许与它们的谐波相对应。图3(c)描述了在420 - 480赫兹范围内的啁啾的记录。混叠啁啾可在20 ~ 80赫兹范围内检测到; 然而,这是一个相当微弱的信号。
2.3.3自噪声
麦克风的自噪声特性表明什么是最安静的声音,用分贝表达的话是麦克风可以接收到的声音,即刚刚超过其自噪声的声音。为了测量陀螺仪的自噪声,我们在不同音量下播放80赫兹的音调10秒,同时用分贝计测量它。每个音调都由Galaxy SIII中的陀螺仪记录下来。在分析陀螺仪记录时,我们发现,当播放75分贝或更高音量的音调时,陀螺仪读数的振幅有明显的增加,这相当于大声交谈的音量。此外,陀螺仪记录的快速傅里叶变化的图中显示,当播放音量低至57分贝(低于正常交谈的声音水平)的音调时,音调的频率会出现明显的峰值。这些发现表明,陀螺仪能够在大多数电话通话或电话旁边的通话中接收到低于100赫兹的音频信号。为了测试陀螺仪在混叠音调下的自噪声,我们播放了150赫兹和250赫兹的音调。陀螺接收到的最低声级分别为67分贝和77分贝。这些价值观比大声交谈要高得多。
2.3.4方向性
我们现在测量手机的角度是如何影响语音信号激励陀螺仪的。在这个实验中,我们在同样的音量下播放了三次80hz的音频。基调被记录在每次电话休息时被Galaxy SIII中的陀螺在不同方向允许信号达到它平行于一个三轴(见图4),在三轴陀螺仪的感觉,因此对于每个测量陀螺输出三个读数——一个每轴。正如我们接下来展示的,这个特性有利于陀螺仪从各个方向接收音频信号的能力。对于每个记录,我们计算了80赫兹时的FFT大小。表2总结了结果。
从表中可以明显看出,对于音频击中陀螺仪的每个方向,至少有一个轴的读数比其他轴的读数占主导地位。这可以用图14所示的意法半导体陀螺仪设计来解释。当信号与手机的x轴或y轴平行传播时,声压振动主要是沿各自的轴分布的质量,即x轴的和,以及和
(a)单一
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。