英语原文共 4 页
基于Android的盲人语音助手
Marcos Barata, Afan Galih Salman, Ikhtiar Faahakhododo, Bayu Kanigoro,
1摘要:
基于传统的PC端上的语音控制,即人们对着电脑“说”,电脑识别人的语音,并将语音信号转化为控制信号,这种控制方式单一,在很多控制场合受到限制。而随着嵌入式系统的飞速发展,语音控制方式[[2]越来越多样化,给人们带来交互的新鲜感和娱乐感更加突出,在嵌入式领域里语音控制有两种情形。其一,利用传统的语音芯片[[3]。此种语音控制方式在语音控制之前,需要利用嵌入式系统上的语音芯片进行录音,将语音保存在某种语音芯片里面,通过语音芯片,将语音信号转为对应的控制信号,由微处理器传输信号进而达到语音控制的目的,这种方式容易受语音芯片的存储容量限制,一旦有大量的语音片段时,就需要扩展内存,给二次开发带来了困难,同时其识别率不高,因为其受不同型号语音芯片的限制;其二,利用云平台的语音接口。不用语音芯片,而是直接调用嵌入式系统上的语音接口,将语音片段保存在云端,这样就节省了很大的存储空间,并且减少了语音芯片二次开发时带来的困难。特别是随着嵌入式Android系统的快速发展,其开源程度的不断提高,在其上进行语音控制的二次开发更加方便,使得语音识别的精度、识别响应时间进一步提高。
2简介
随着技术的发展,从QWERTY键盘到具有不同操作系统的触摸屏,如iOS和Android(Lee,2012年),如今人们在各种智能手机中都能找到。每一个操作系统都在不断地开发。但到目前为止,智能手机技术的发展是盲人无法感受到的。这是因为他们在操作智能手机方面的困难,而智能手机大多是用触摸屏开发的。这不利于盲人,他们在日常生活中只能使用触觉、听觉和味觉。因此,为了帮助盲人操作触摸屏智能手机,有必要创建语音助手应用程序(智能软件助手)。这个应用程序可以帮助盲人和视障人士访问图书馆的资源。克雷文(2003)对盲人和视障人士在获取图书馆资源方面面临的困难进行了行为研究。该应用程序还可以减少盲人和视障人士在访问图书馆资源时的资源共享差距(EPP,2006)。语音识别技术作为新兴的人机交互方式已经受到了人们的广泛关注。国内外在这些方面已经有很多研究成果。微软的Bill Gates在97年世界计算机博览会主题演讲会上,率先指出:下一代操作系统和应用程序的用户界面将是语音识别。可想而知这将是一场席卷全球的热潮 。同时潜心研究语音别技术迄今已达30年之久IBM也有动作,公司已经在95年成立了中国研究中心, 中文语音信 息处理正是该中心三大研究领域之一。而 Intel也提出了 “做语音技术的提倡者”的口号 ,Intel除了举办首届语音技术国际论坛之外,还在国内各地区宣传语音识别技术。要说现在最火的还是Google的Android系统,谷歌已经发布了一个基于 Android的最新语音控制应用 “VoiceAction”,它可以让用户通过语音控制自己的手机。本论文中Anny就是基于Google给出的语音识别技术的开放API来设计的。苹果公司的Siri是目前最为流行的语音助手,但Siri的交互界面却略显单调,虽然Siri能和用户进行语言交流,但交互界面只有一个按钮和单一的背景,显然没有充分利用触摸屏幕所能提供的全新的人机交互方式,从会说话的汤姆猫的风靡我们不难看出一个出彩的交互界面对一款软件的成败的重要性,试想 ,如果会说话的汤姆猫采用lSiri的单背景加单按钮的界面,恐怕很难再吸引这么多的用户了。所以,我们小组决定为Anny设计一个友好的交互界面,用户可以看到Anny的可爱形象,并且当用户触碰Anny的不同身体部位时Anny还能做出不同的反应,这样一套界面可以让我们的虚拟个人助手变的更为亲切和真实。随着经济水平的不断提高,传统的人机交互方式如键盘、触摸屏等己经无法更好的满足人们的需求,语音控制技术在人们生活中的应用越来越广泛。传统的语音控制系统采用PC端语音控制或者嵌入式语音芯片来控制,存在控制方式单一、控制场合有限、语音芯片内存不够、二次开发困难、识别率不高等问题。移动系统和云平台的出现在一定程度上解决了这样的问题,特别是Android系统的崛起使得语音控制系统有了更广阔的发展空间。通过在Android系统上开发语音控制应用软件,借助Wifi, 4G等网络与服务器之间组建语音控制系统具有控制方式多样化、开发成本低廉等优势,同时也具有广阔的应用前景和市场价值。智能软件助理(Naone,2017)是一个软件代理,也是一个智能代理,它使用用户的一些特定指令运行任务。这个软件是从一个虚拟的个人助理的概念发展而来的,一个可以学习和组织的认知助理。智能软件助手结合了传统的人工智能方法,试图创建一个个人助理程序,该程序可以通过与用户的交互来发展。该软件使用智能技术和行为学习向用户显示计算机可以快速运行。智能软件辅助程序开发的目的是创造一种奇妙的体验,可以帮助人们在日常生活中提高效率。
3方法
用于确定用户需求的方法是媒体直接采访五位盲人受访者。因为盲人无法填写问卷,所以选择了访谈法。对用户需求进行分析的目的是找出盲人在当今使用Android时所需要的,以及他们经常面临的限制等等。采访显示,用户需要能够帮助操作Android智能手机的应用程序,但这些智能手机目前平均使用触摸屏技术。用户需要一个应用程序,该应用程序可以使用声音(如命令)执行用户的命令,以发送消息、读取传入的单词、读取消息状态、进行入站呼叫、读取电池状态并锁定设备。这还需要一个可以在执行用户提供的命令之前确认的应用程序。这需要一个能够读出用户触摸的菜单或图标的应用程序。这需要印尼语的语音到文本和文本到语音应用程序及其清晰的发音。设计方法是敏捷模型中包含的技术之一,它被称为Scrum方法(Sutherland和Schwaber,2011)。之所以选择Scrum方法,是因为该过程被认为更有效、更高效,并且适合于由少数团队成员组成的项目。Scrum方法上的活动包括backlog、sprint和Scrum会议。在产品积压阶段,产品设计开始;产品的设计方式可以简化应用程序的制作过程。所进行的设计是统一建模语言(UML)的设计(Bruegge和Dutoit,2004年),它是根据用户的需求设计的。UML设计包括描述应用程序中特性的用例图设计、说明应用程序如何工作的活动图和描述应用程序系统结构的类图。用户界面(UI)也是根据用户的需要设计的。上个世纪50年代,世界上出现了第一个语音识别系统,只是能够简单的识别十几个英文字母。后来到了60年代,语音识别技术得到快速发展,这一时期提出了动态时间规划[7]等技术,但是没有构建相应的完整的语音识别系统。80年代初,Wilpon等人提出了隐马尔科夫模型,并组建了5个电话用语的关键字语音识别系统[[9],但是都没有将其应用于控制、自动化等工业领域。90年代初,随着隐马尔科夫模型的飞速发展,使得语音识别的应用越来越广泛,语音识别技术得到了快速的发展,并将其应用语音对话、语音交互、自动化控制等工业领域。其中美国的KateKnill等人将关键词语音检测技术应用于嵌入式手持PDA的语音命令控制;在国内,袁长海「川等人把语音识别技术、关键词识别技术和网页浏览器相结合,实现了一个基于PC端语音交互的语音网页浏览器,严斌峰等人采用主题指导、意图分层的系统框架并结合关键词检测技术实现了一个包含多重任务,比如电梯控制和家电控制的语音控制系统,这是国内首次将语音识别技术应用于电梯控制等工业化、自动化领域。到了21世纪,语音控制技术更加飞快的发展,特别是随着嵌入式系统Android, iOS等的市场占有率越来越高、可穿戴设备、智能家居等技术发展,使得语音交互、语音控制技术在移动互联网中得到了更进一步的发展和更广阔的应用,从而不在局限于传统的PC端的语音控制。近年来,随着google对Android系统的开源程度越来越高,google公司开
放语音识别的API接口以后,语音控制技术在移动互联网应用得到了很大的发展。目前,语音技术己经被人们大范围的使用,特别是基于小词汇量语音的基础之上,人们可以通过语音对手机内部应用进行控制,它使得用户与硬件设备的交互不再局限于触摸、加速度、重力感应等方式。在信息发展的今天,人们对手机的依赖感越来越强,使得语音控制在移动设备中应用更加迫在眉睫,特别是语音远程控制、语音聊天等技术的发展。近年来,其应用范围总体来说包含以下一些方面:
1)自动化等工业控制领域
在科技不断发展的今天,我国的工业化程度也越来越高,比如各行各业的生产线机器上复杂的控制面板,这些多种多样的操控按钮现在可以用一个简单的Android语音手机来取代。随着汽车电子的飞速发展,人们不在满足于简单的汽车终端上的按钮操控,并且驾驶者离开方向盘是一件非常危险的事情,而Android系统的语音控制在此类似的场合无疑发挥了巨大的作用,另外,在一些高危险的区域,[匕如高电压、高磁场的供电区域,人们去安装或者检修都存在着很大的危险隐患,语音命令远程控制操作这些设备在一定程度上规避这些危
险隐患。
2)物联网等新兴控制领域
近年来物联网技术的不断进步带动了智能家居、可穿戴设备等领域的不断发展,语音识别应用于智能家居控制等己经迫在眉睫,比如上班的白领,下班时想提前打开家里的电灯等电器设备,在办公司就能通过Android手机语音远程控制家里的设备,对于一些长期在家的独居老人来说,想要开灯、关灯或者开门、关门或者看电视等,语音控制将给他们带来极大的便利,增加了他们生活上的乐趣。计步器等可穿戴设备己经广泛引用于人们的日常生活中,人们在跑步或者健身的时候,不需要手动去操作这些设备、而是直接通过语音去控制其工作,这给人们健身时带来了很大的乐趣和娱乐感、互动感。另外,随着淘宝等互联网行业的飞速发展,比如语音查票、语音查询号码、航班、汽车或者火车的时刻表、天气预报等使得查询方式更加的便捷、灵活,更加减少了人工成本。在玩具机器人领域,语音使其能进行简单的对话交流,让玩具更加智能化,但由于涉及声学建模、人工智能等多项复杂的技术,要达到类似于人与人之间的自然对话还有很大的距离。语音识别在实际应用的场合中,由于受某些因素的影响,还是面临的一些问题,具体如下:
1) Android上语音噪声[[31]的干扰:在现实生活中,拥有绝对安静的环境几乎是完全不可能的,所以这就给语音识别的过程带来了很大的困难,因为一旦周围环境嘈杂,噪声较大,对语音识别的结果将会造成很大的影响,语音识别精准度会大大降低。当然,随着科技的不断进步,人类不断的努力,越来越多的抑制噪声的方法也相继出现,并日益成熟,比如对语音识别信号建立噪声模型、修正噪声等技术,使得语音识别的精准度大大提高,但是噪声的干扰依然还是存在,如何在现有的基础上进一步提高语音的识别率,今后还有很长的路需要走。
2 ) Android上复杂的语音信号:由于地域的不同,不同地方的语言种类繁多,这对于语音信号的特征提取、关键字提取、词汇量大小限制等一系列因素一直都是智能语音控制功能成熟化的严峻挑战。
3 ) Android上语音识别鲁棒性[[32]:就目前而言,大多数语音识别需要在比较安静的环境下,所以如果尽量避免一些噪声,发音要稍微标准一点,语音系统的识别的正确率会大大的降低,因此其鲁棒性还有待提高。
4 ) Android语音控制系统复杂性、局限性:目前Android语音控制的方式有很多种,手机内部应用的控制只是单纯的语音识别的问题,而将Android语音应用于控制领域就是典型的Android语音控制,比如Android语音蓝牙[控制、Android语音远程wifi控制、Android语音远程Zigbee控制、Android语音USBHOST控制等,这些都是将目前己有的无线控制方式与Android平台上的语音识别相结合,但是也存在着一些问题,比如远程控制数据传输速率、数据传输量大、数据丢包、系统响应时间慢、控制传输协议复杂等问题,都制约着其发展。
5 ) Android语音控制远程硬件的局限性:
目前,国内外的语音App都有自己的特色:虫洞语音App所特有的语音调侃对话功能,提高了趣味性和互动性。百度语音App提供复杂的数学计算与搜索,满足用户多样化的需求。微软的Cortana高度的智能化,可以不断地学习用户习惯与用户兴趣爱好,以便更好的帮管理用户生活习惯。但是这些语音App,都只是基于手机内部的应用控制,并同时结合搜索、对话、娱乐等,并提供一系列与之相关的语音服务「37],它们并没有提供语音控制硬件设备,也没有在语音App中集成此项功能。目前,控制接口的标准繁多,各家公司都有各
自的一套标准,在一定程度上阻碍了语音控制应用的发展。在UI设计中,有一个如何显示所需应用程序的图像,使应用程序开发人员更加关注。根据在演示阶段生成的输入,优先级列表将根据要在Sprint阶段执行的工作的优先级列表进行更新。在Sprint阶段,应用程序创建开始。在这个阶段有几个事情要做,例如开发人员的编程和Scrum会议,每天进行15分钟,讨论在项目工作中遇到的发展和障碍。如果在测试时,应用程序发现了干扰应用程序性能或使应用程序无法按照所需运行的错误,则必须修复该错误。在演示阶段,开发人员提供完成的应用程序供用户测试,然后与用户面谈,以确定它是否满足需求,或者是否仍然缺少需要开发人员再次修复的应用程序。如果用户认为它已经满足了他的要求,那么它将进入下一个阶段。如果不是,那么它应该回到产品积压阶段。
4结果及讨论
要打开应用程序,用户必须晃动设备,如果设备检测到震动,系统会说,“请在下面的提示后输入命令”,如图1所示。在发出“哔”声后,用户必须向命令提供单词“open”,后跟要打开的应用程序的名称,例如“open
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。