英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
人工耳蜗植入用户的强度辨别和语音识别
摘要
在9个人工耳蜗用户中测量了语音识别与信道内或跨信道(即,频谱倾斜)强度辨别之间的关系。在电极阵列上的四个电极位置处测量通道内强度差异(IDL)。用XIDL-J和没有XIDL的水平抖动来测量光谱倾斜的差异。只有三个主体可以执行XIDL-J任务,其中包含限制使用通道内提示所需的抖动量。 XIDL(标准化为%DR)与语音识别相关(r = 0.67,P = 0.019)并且与IDL高度相关。 XIDL平均比IDL大近3倍,并且与两个组件电极的空间分离不一致。结果的总体模式与两个不同的特定任务中的共同潜在的主体依赖性限制是一致的,假设这是感知方差(声音的感知在不同的呈现方式上如何不同),这也可能是XIDL与语音识别的基础。光谱倾斜辨别对语音识别比信道内强度辨别更重要的证据在本研究中并未明确显示。然而结果倾向于支持这一命题,XIDL与语音识别的相关性高于IDL,并且XIDL / IDL的比率也与语音识别相关。如果得到进一步研究的支持,感知方差作为CI用户语音理解的限制因素的重要性,对于改善语音识别能力差的人的成果具有重要意义。
关键词:人工耳蜗,强度辨别,语音识别
绪论
人工耳蜗(CI)领域最持久的挑战之一是语音感知结果的高度变化,即使在患有耳背的成年人中也是如此。 多达三分之一的此类人工耳蜗用户在没有唇读的情况下理解句子的能力极低(例如,在安静中句子中的单词识别的正确率小于50%)(Blamey等人在2013年的研究表明)。 人们已经进行了许多心理和物理研究,来试图理解个体中语音识别能力差的原因。 有了这些知识,可以指导研究,以克服人工耳蜗用户在语音识别不良时遇到的限制。 在这项研究中,研究了语音识别与人工耳蜗用户检测通道内和跨通道(光谱倾斜)强度变化的能力之间的关系。
听觉语音识别依赖于多种听觉和语境线索。要感知复杂语音刺激中的语音信号,听觉系统必须对信号进行频谱和时间分析(即频谱和时间分辨率)。尽管语音的可理解性很少受到整体水平变化的影响(前提是可听性不受影响)(例如,Lu和Cooke 2009),但光谱分辨率依赖于能够比较不同同时频率分量的强度,并且时间分辨率依赖于能够跟踪频道内随时间的强度变化。
许多研究已经证明了频谱波纹检测或识别与语音识别之间的相关性(Anderson等人2011年、2012年;Drennan等人2016年;亨利和特纳2003年;劳勒等人2017年;Litvak等人2007年;Saoji等人2009年;Winn等人2016;Won等人2014,2011b)。然而,频谱涟漪刺激是复杂的,除了单个涟漪的分辨率外,还可以使用多种不同类型的提示(如细微的音调或响度变化和通道内振幅调制)来识别或检测。Saoji等人(2009)在控制响度提示的同时,测量了光谱调制频率范围内的光谱纹波检测阈值。他们发现,纹波检测和语音识别之间的关系完全可以通过检测最低纹波密度的纹波(其中任务类似于检测宽谱倾斜度)来解释,而不是通过检测随着纹波密度增加而恶化的速率(与谱分辨率有关)。这项研究得出的一个推论可能是,在多电极刺激下,能够检测跨间隔良好的通道的相对强度变化,这是光谱纹波检测的基本心理物理能力。安德森等人的研究(2012)比较了相同人工耳蜗用户的光谱纹波检测和识别阈值。尽管两项任务的表现是相关的,但相同调制深度下的阈值并不相等(如果受试者在每项任务中使用相同的提示,则与预期相同)。他们发现宽带噪声的强度差异与光谱纹波检测无关。他们推断,纹波检测并不依赖于通道内的信号,因此,在检测频率或时间上强度的微小变化的能力之间必须存在分离。
在一些研究中,振幅调制检测也与语音感知性能有关,无论是在单电极上使用直接电刺激还是通过语音处理器进行宽带声刺激(Brochier等人2017年;Luo等人2008年;Won等人2011A)。在这些情况下,与语音识别相关的参数是低调制频率下的灵敏度,这与强度辨别(Galvin和Fu 2009)高度相关,而不是调制传递函数的斜率或截止频率(与时间分辨率相关)。
虽然频谱和时间分辨率是语音识别的必要条件,但上述心理物理研究表明,这些能力的差异并不是导致CI用户语音识别差异的主要因素。这可能是因为语音识别,至少在安静的情况下,不需要非常精细的分辨率(例如,Shannon等人),而植入式通常具有足够的分辨能力。在时间域中,Fraser和McKay(2012)表明,CI时间调制传递函数具有与正常听力受试者大致相似的低通调制频率截止(因此时间分辨率)。此外,几乎没有证据表明CI用户的中央时间整合窗口宽度(限制时间分辨率)与正常听力听者的宽度不同(McKay等人2013)。
由上述心理物理学研究产生的假设是,强度辨别中依赖于受试者的变化是语音识别任务中的性能与幅度调制或光谱纹波检测任务中的性能之间的关联的心理生理因素。有些令人惊讶的是,简单的强度辨别措施很少受到调查CI用户语音识别变异的研究人员的
关注。在这项研究中,我们假设通道内(单电极)强度辨别和跨通道相对强度辨别(在双电极Bspectral倾斜任务中)与语音识别相关。频谱倾斜是一种基于广谱的声学提示,对语音识别很重要,特别是停止辅音(Alexander and Kluender 2008,2009)。此外,与正常听力相比,我们可以使用(Alexander和Kluender 2009)和CI用户(Winn和Litovsky 2015),在更精细的光谱共振峰信号上增加频谱倾斜线索的权重。因此,基于Anderson等人的研究,我们进一步假设了这一点 (2012)以及CI用户的频谱倾斜线索的重要性,频谱倾斜的辨别差异与语音识别中的差异更相关,而不是信道内强度辨别。
1.1 方法、学科和设备
九名成人人工耳蜗植入者参与了这项研究。 所有人都是由Cochlear Ltd.制造的Nucleus-family人工耳蜗植入物的使用者。两个具有双侧植入物的受试者提供了来自每只耳朵的数据。 所有参与者都签署了知情同意书,该项目获得了维多利亚皇家眼科和耳科医院人类伦理委员会的道德批准。 参与者植入物,临床语音处理器类型,听力历史和病因学的详细信息包含在表1中,其临床语音处理策略的参数如表2所示。
表1 参与者植入物语音处理器、病因、年龄和植入经验的详细信息
参与者植入物语音处理器、病因、年龄和植入经验的详细信息 |
||||
主体 S1 S2 S3 S4 S5-L S6 S5-R S7-R S8 S9 S7-L |
病因学 进行性/遗传性疾病 美尼尔症 耳硬化症 耳硬化症 进行性/遗传性疾病 进行性/遗传性疾病 进行性/遗传性疾病 未知行进性疾病 进行性/遗传性疾病 未知进行性疾病 未知进行性疾病 |
种植体类型 CI24RE CI24RE CI24RE CI22 CI24RE CI24RE CI512 CI24M CI24R CI512 CI512 |
语音处理器 CP810 CP810 CP810 自由选择 CP810 自由选择 CP810 CP810 CP810 CP900 CP900 |
植入经历 7 6 5 22 7 6 4 15 15 1 5 |
表2 每个参与者的临床图谱参数详情
每个参与者的临床图谱参数详情(策略、最大值、速率(每个电极)、相持续时间、相间间隙) |
||||||
主体 S1 S2 S3 S4 S5-L S6 S5-R S7-R S8 S9 S7-L |
模型 MP MP MP BP 1(stim level) MP MP MP MP MP MP |
方法 ACE ACE ACE SPEAK ACE ACE ACE ACE ACE ACE ACE |
速率 900 900 500 250 900 900 900 900 1200 900 900 |
极大值 2 8 8 8 8 8 8 8 8 8 8 |
相应持续时间 200 37 25 不可知 25 25 25 25 25 25 25 |
间期间隙 8 8 8 45 8 8 8 8 8 8 8 |
通过Impress软件(通过Spear处理器与植入物连接)通过直接电刺激进行心理物理测量(Zakis和McDermott 1999)。软件定义刺激参数,运行实验程序,并通过响应框收集受试者的响应。处理器通过通常的射频链路将每个刺激的编码指令直接发送给植入的电子设备。
使用声卡直接音频输入(DAI)对参与者自己的语音处理器进行语音识别测量。通过在示波器上使用盒内植入物匹配输出电流水平来校准DAI测试的等效输入声级。所有参与者都使用了ace或speak策略(见表2),语音处理器被设置为BeveryDay项目。戴教授防止在言语任务中使用残余听力,同时也促进了对两个双边植入的参与者分别测试每只耳朵。语音识别和心理物理任务至少在三个单独的疗程中进行,休息时间最多持续1.5小时。
1.2 语音识别
用辅音-元音-核-辅音(CNC)词评价安静状态下的语音识别。给出了一份相当于65 dBA的50个CNC单词列表,并根据正确识别的音素百分比对受试者的回答进行评分。
在信噪比(snrs)为 15、 10和 5db的情况下,在安静和多人语言中使用cuny语句评估句子识别。在每种情况下,给出一个句子列表,并按单词正确率(在每个句子列表中约100个单词中)评分。句子测试的顺序首先是安静的状态,其次是越来越困难的噪音状态。如果一个信噪比的分数降到20%以下,则不再测试更困难的情况。由于受试者的绝对语音识别能力在安静状态下差异很大,有些受试者无法完成低信噪比的测试,因此在分析中没有固定的信噪比不会受到下限或上限的影响。因此,从每个正确率与信噪比的百分比函数中推导出一个参数(表示为snr-h),该参数表示语音分数在安静状态下降至分数一半的信噪比。因此,与语音接收阈值不同,这个参数不是一个绝对的语音识别性能度量,而是一个衡量噪声对个人语音识别性能影响的度量。
1.3强度判别
电极选择。选择四个横跨电极阵列的活性电极来评估强度辨别测量:中间阵列(10,13)中的两个电极相距三个电极,两个(3,20)非常远。电极的选择是由位置和分离的最佳取样决定的。除使用双极 1模式的受试者S4外,所有病例的电极均在单极模式下激活(耳蜗外的返回电极)(大脑内的返回电极2位于活动电极的顶端)。使用单电极刺激对四个活性电极中的每一个进行通道内强度辨别,并使用两组电极中的每一个使用双电极刺激(两个电极上交错的刺激脉冲)评估光谱倾斜辨别。
刺激参数。每一个单电极刺激是一个持续500毫秒的双相脉冲恒流序列。由于其目的是将强度辨别与语音识别与参与者自身的处理器关联起来,因此刺激率、模式、相位持续时间和相位间隙均设置为与临床图中相同的值。受试者S4使用早期模型植入物和语音处理器,混合使用相位持续时间和电流水平来编码振幅。对于这名受试者来说,心理物理任务中使用了100mu;s的固定相位持续时间,这是他语音处理器中代表范围的一个值。表2列出了所有参与者的语音处理器参数。双电极刺激由两个交错的单电极刺激组成,电极间延迟可调节,使整个脉冲在时间上均匀分布。
创建参考刺激。对鉴别任务中参考刺激的参考电流水平进行了设置,以便(a)一对电极的每个电极都能引起
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[444396],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。