基于安卓平台的语音朗读器系统的设计外文翻译资料

 2022-09-06 10:37:16

Andriod Based Punjabi TTS System外语原文

ABSTRACT

The usage of mobile phones is nearly 3.5 times more than that of personal computers. Android has the largest share among its counter parts like IOS, Windows and Symbian Android applications have a very few restrictions on them. TTS systems on Android are available for many languages but a very few systems of this type are available for Punjabi language. Our research work had the aim to develop an application that will be able to produce synthetic Punjabi speech. The paper examines the methodology used to develop speech synthesis TTS system for the Punjabi content, which is written in Gurmukhi script. For the development of this system, we use concatenative speech synthesis method with phonemes as the basic units of concatenation.Some challenges like application size, processing time, must be considered, while porting this TTS system to resource-limited devices like mobile phones.

Keywords:- Speech Database, Concatenative Synthesis, Android Operating System, Phonemes.

INTRODUCTION

In the past years, mobile phones from being just a medium of communication have now become a gadget with features of many other devices clubbed into a single device. They have become such an essential part of our life and a lot of our routine work depends on them.Android OS has become very popular lately. The Android mobile devices also support the text-to-speech synthesis. Thus,speech synthesis has become an important modality on mobile phones as various aspects such as driving, jogging, screen size,etc. restrict the use of visual modality. This TTS application also helps the users to read written text while jogging, driving,jogging, screen size,etc. restrict the use of visual modality. This TTS application also helps the users to read written text while jogging, driving,etc. Android TTS application is helpful for users with visual disabilities and illiterate masses [1]. Speech synthesis systems for mobile phones are difficult to implement as they have limited storage capacity and computing performance.

SPEECH SYNTHESIS TECHNIQUE

peech synthesis is the automatic generation of speech waveforms that convert the input text data to speech waveforms. Concatenating the pre-recorded speech that is stored in database produces synthesized speech. There are different techniques to speech synthesis, articulatory modeling,rule-based and concatenative techniques. Nowadays, speech research area uses the Concatenative speech synthesizers.Thus, we have developed our Punjabi synthesizer using the above-mentioned technique. There are numerous barriers intext acronyms. pre-processing,like,abbreviations,numerals and acronyms.

Concatenative synthesis depends upon stringing together of segments of recorded speech; we used phonemes as the basic unit for reducing both number and size of the database.Furthermore, Concatenative technique does the suitable matching of various phonemes in an acceptable processing time. A TTS system based on three modules.

1.Transcription: This module transcribes the orthographic input text into a sequence of phoneme, which specifies the sound to be produced.

2.Prosody: This module computes phonemes durations,determine word and sentence-level stress and assign a fundamental frequency contour to the utterance.

  1. Synthesis: This module synthesizer the desired utterance from the specification provided by the transcription and the prosody module also converts the written text into the speech synthesis. Speech synthesis is the artificial production of the human speech which allows the users to create their own synthetic voice.

The TTS synthesizer is composed of two phases as mentioned front end and back end. The two are analysis which converts the input text to a phoneme in the front end.Thereafter, back end converts the phoneme to waveforms that can output as sound .

RELATED WORK:Until now, TTS systems have developed for many platforms, like PCrsquo;s and mobile devices. However, mostapplications are for English language. The problems faced in porting a TTS system to mobile devices are limited storage and processing power. Gopi et al. developed Malayalam language TTS synthesizer for Android platform. Authors used an ESNOLA technique for speech generation based on concatenation technique using diaphones like segments as a basic unit for concatenation. Ahlawat and Dahiya developed English and Hindi TTS systems for the Android environment. For English TTS, they used phonemes as the smallest

units for concatenation. For Hindi TTS, authors used two development of application to get the naturalness quality of the synthetic speech that takes real recorded speech:marking the secondrsquo;s position and concatenating these sound positions back together during synthesis to produce the required output speech.

layers: first getting the input text in Hindi and, then mapped it with the Entire Hindi data into English language. Kaur and Singh developed a Punjabi speech synthesizer for android mobile devices using a concatenative method, but sound quality needs to be improved using DSP techniques. Singh and Lehal developed a computer based Punjabi TTS system and they used syllables as the basic unit of concatenation,which

Produces the high quality synthesised sound.Mhamunkar et al. developed a speech recognition system that is an on-line Speech to Text engine using hidden Markov

Models (HMM- Hidden Markov Model). The application takes input in the form of voice, then searches the word in mobile dictionary and gives the output as the synthetic speech.Mukherjee and Mandal developed a Bengali TTS synthesis

system for the Android devices using ESNOLA (Epoch Synchronous Non Overlap Add) technique based on concatenative speech synthesis technique using Partnemes as the basic units for concatenation.

lt;

剩余内容已隐藏,支付完成后下载完整资料


Andriod Based Punjabi TTS System中文翻译

摘要:手机的使用量是个人电脑的近3.5倍。安卓的最大份额计数器部分像iOS、Windows和Symbian的Android应用对他们有很少的限制。TTS文本转语音西戎系统可用于多种语言却很少有这种类型的系统可用于旁遮普语。我们的研究工作是有目的开发一个应用程序,将能够生产合成旁遮普演讲。本文考察方法用于开发语音合成TTS系统的旁遮普的内容,这是写在旁遮普文脚本。为本系统的开发,我们以音素作为级联的基本单位使用拼接的语音合成方法。一些挑战,如应用尺寸,加工时,必须考虑的,而将这个TTS系统资源有限像手机这样的设备。

关键字:语音数据库,拼接合成,Android操作系统,音位。

介绍:在过去的几年中,手机从一个传播媒介变成为一个尤许多其他设备功能的小工具凑成一个单一的设备。他们已经成为我们生活中必不可少的一部分,而我们日常工作中的很多工作都依赖于他们,安卓系统最近变得非常流行。安卓移动设备也支持文本到语音合成。因此,语音合成在很多方面的应用,例如驾驶,慢跑,屏幕大小等限制使用的视觉方式的时候发挥着重要的作用。这个应用还可以帮助用户在慢跑、驾驶的同时进行阅读。这个应用还可以帮助有视觉障碍和文盲的用户。因为它有限的存储容量和计算性能的限制,移动电话语音合成系统是很难实现的。

语音合成技术:语音合成语音的波形是将输入的文本数据的语音波形的自动生成。将预先录制的语音,存储在数据库中产生的合成。其中有不同的技术,语音合成,语音建模,基于规则和拼接技术。目前,语音研究区采用拼接语音合成器。因此,我们发展我们的旁遮普合成器应用上述技术。有许多障碍如INTEXT缩写。预处理,如,缩写,数字和字母。

拼接合成取决于串在一起的记录的语音段;我们使用音素为基本单元来减少数据库的数据和大小。此外,拼接技术在一个可接受处理的时间能与不同的音素匹配。一个TTS系统就是基于以下三个模块:

1.转录:该模块将字形文本输入到一个序列的音素中它指定要产生的声音。

2.韵:此模块时间确定音素,单词和句子的水平应力和分配一个基频轮廓的话语。

3.合成:本模块合成所需的话语,将从韵律模块提供的规范和转录文本进行语音合成。语音合成是人工合成语音,它允许用户创建自己的合成语音。

TTS合成器是分别由前端和后端两部分。二个阶段分别是是将输入的文本转换为前端的一个音素,和后端将音素转换为可以输出为声音的波形。

相关工作:直到现在,TTS系统已经开发了许多平台,如PC和移动设备。然而,大多数应用程序都是英语。所面临的问题,在移植一个TTS系统的移动设备有限的存储空间和处理能力。该等。[ 4 ]开发Android平台的马拉雅拉姆语TTS合成器。作者采用基于diaphones像段串联的基本单元级联技术的语音生成技术公司。ahlawat和dahiya发达英语和印地语的TTS系统为Android环境。英文TTS,他们使用的音素是最小的单元级联。印地语TTS,作者用两得到自然的合成语音的质量,以实际录制的语音应用开发:标志着第二的位置和连接这些声音的位置后在一起以产生所需的输出语音合成。

第一层:在印地语输入文本,然后将它与整个印度数据转换成英语。考尔和辛格开发了Android移动设备使用拼接方法旁遮普语音合成器,但声音质量需要使用DSP技术的改进。辛格和法定开发的基于计算机的旁遮普TTS系统和他们使用的音节作为拼接的基本单位,它生产高质量的合成声音。mhamunkar等人。开发了一个语音识别系统,这是一个在线语音引擎使用隐藏的马尔可夫模型(隐式马尔可夫模型)。应用程序需要输入语音的形式,然后搜索在移动字典给出输出合成语音。穆克吉和该开发的孟加拉语TTS合成利用公司的Android设备系统(时代的非同步叠加)基于partnemes为基本单元拼接拼接语音合成技术。

(1)拼接合成技术用于得到自然的合成语音的质量,以实际录制的语音应用开发:标志着第二的位置和连接这些声音位置回到一起,在合成过程中产生所需的输出语音。

(2)用户浏览旁遮普文本文件从手机内存或SD卡存储介质。然后,我们将文件分为单词。这一步分析了辅音和元音的位置。此后,字成音素为辅音和元音及其组合段。

(3)编写的数据库,由起始秒和结束秒的位置的音素决定。thephonemes的声音已被非常精确地是从框架考虑到旁遮普speechrecorded波。数据库的准备与所有的辅音和元音的选择和它们的组合,由专业的扬声器进行这些句子的记录,并最终标志着开始和结束位置的音素声音在这些记录的声波文件。用于储存、旁遮普音素及其相应的秒的起始位置和结束位置采用SQLite数据库管理系统。

(4)现在的音素在数据库检索,检索开始和结束的第二的位置,然后在相应的要播放声音的应用程序资源搜索。最后,这些音素连接到声音所输入的文本。

旁遮普语TTS开发系统 :我们研究的目的是开发一个TTS系统,基于安卓系统能够在很短时间把输入文本转化为语言输出。因此,我们采用拼接语音合成技术获得两种品质的期望输出:自然度和可懂度。我们用旁遮普音素为基本单位。为旁遮普语音数据库的发展,Punjabi语包含有效的元音和辅音-元音音素及其相应的声音位置的组合存储在数据库文件。第二的起始和结束位置为五和简历标记从记录的波形文件。对anylength输入的文本分割成旁遮普音素,音素是以后备数据库和相应的第二的位置搜索检索。此后,在声波文件这些第二的位置搜索存储在文件夹。

数据库准备

通过以下几步,然后用旁遮普语语音数据库的生成。

  1. 旁遮普音素的选择:为旁遮普TTS的发展,语音作为级联的最小单位,它是由辅音和元音及其组合。在旁遮普语,有两种类型的音素V和CV,产生380个音素与音位和非鼻化元音和380个鼻化元音,所得的总有效722,旁遮普音素,元音和辅音的表I所示。

选择基本音素为语音单元的主要原因是,音素是小于词和音节的单位。因此,相较词和音节语音音素能使用更少的单位,因此只需要较少的存储空间。

(2)记录:句子的旁遮普语音位总集的仔细分析,得到了系统所需的最小音素。对标签的音素的声音,我们的话选择有制造记录所有的辅音和元音及其组合。

(3)文字记录:旁遮普语使用专业的女性声音记录选定的字。语音的质量,取决于记录的声音质量,也从这个记录的声音提取的语音单元的质量。记录在具有以下特点:工作室做的采样率44100Hz,位深度:16位,通道:单声道

(4)标记音位的声音:下一步是标签的音素的声音记录的波形声音文件。这是一个非常漫长的过程,应该小心地做。由于合成语音完全取决于准确的音位的界限被标记。为声波铸造工艺,锻造10已被使用。经过仔细分析和听单词的发音音素的声音了记下了每个音素的起始和结束位置。

(5)旁遮普语语音数据库:数据库是一个旁遮普的重要组成部分,TTS基于级联技术。为旁遮普TTS系统的开发,已开发的数据库。设计数据库的TTS系统包括三个领域:音素,开始第二的位置和结束的第二的位置。

发现音素和联系:在这一步中,我们寻找相应的音素数据库和检索的声音位置。此后,我们在应用资源中搜索所需的声音位置并将其存储在内存中。对于特定的音素,如果搜索是成功的,那么相应的声音位置将从数据库中检索,否则,它将被跳过作为无效的音素,如果没有这样的条目存在。最后,我们将这些音素的声音,根据输入的文本到声音。

移植到Android平台的TTS:我们应用的最后一步是移植到Android平台的计算机系统。“结合”的字体已经存储在运行浏览旁遮普文本中的应用。通过结合的字体,每一个旁遮普文本从浏览文件,有关旁遮普信在文本字段中显示。文本就转换成Unicode值,这些值是Unicode的TTS引擎输入。

拟议的系统架构:在Android OS实现TTS的最低要求规范的版本2.2和512MB RAM。它可以很容易地运行,由于有限的处理能力,限制电池寿命和存储容量。这种合成器的大小是23mb;声后一旦得到它会关闭数据库连接和释放内存后播放。应用程序的功能,用户通过浏览旁遮普从文本文件存储区域后,点击“点击这里选择文件产生的旁遮普语音。然后,应用程序显示文字,当用户点击“开始读取”时,它会根据文字和播放音频文件生成语音文件。该应用程序还可以读取用户的“收件箱”消息。为此,用户将按“点击这里选择”短信”,它会显示所有收件箱中的邮件,然后用户可以选择旁遮普的消息。然后,点击“开始阅读”,它会产生的声音。

结论:在本文中,一个旁遮普语音合成器已经开发的Android移动设备。这个应用程序的目的是开发一个TTS系统,作为一个输出产生的输入文本的言语很短的响应时间的基于Android的手机。在本系统的开发思想是音素的音素串联,使用作为一个基本的语音单位。这个旁遮普应用大小23 MB。应用表明,对于单词的音素分割成理想的结果。这一应用领域的任何长度为音素文字。建议的系统是为了保持在视觉障碍的人的需要,并为不能读写的人,因为它会读出的文本为用户。

An Assistive Reading System for Visually Impaired using OCR and TTS中文翻译

摘要:阅读机是利用光学字符识别和文本到语音技术,以输出合成语音的机电一体化装置。本文提出了一种辅助系统已经提出了视觉障碍或盲人。它读取文本信息文件,并产生相应的语音使用OCR(光学字符识别)和TTS(文本到语音)系统。图像中的连通区域标记方法使用直方图分析的文本区域定位是对二值化后的图像进行。使用基于拼接合成TTS系统的SDK(软件开发工具包)平台的使用。该系统是通过语音为基础的用户界面操作,也有一个用户友好的图形用户界面(图形用户界面)扫描的文本,并控制各种语音参数。产生的语音信号可以保存和复制供以后使用。

关键字:文本信息抽取(领带)、光学字符识别(OCR)、连通区域标记、文本到语音转换(TTS)界面(GUI),拼接合成,图形用户界面(GUI)

简介:尽管技术的进步,允许以电子方式存储信息,文本信息仍然是最常见的信息交换模式。然而,这样的信息是不可用于视觉受损的公民。为了提高他们的访问文本信息的能力,我们提出了一个辅助系统,读取文本从扫描的文件,并以语音的形式表示的文本信息。开发这样的系统需要使用两个,这些系统的核心技术,即OCR(光学字符识别)的文本信息抽取(领带)和TTS(文本到语音转换文本到语音)。

文本信息抽取(TIE)是任何辅助阅读系统的首要功能是OCR的一个组成部分是因为这个过程决定了输出语音的清晰度。近年来,图像和视频文本的自动检测已得到越来越多的关注。然而,文本字体,颜色,样式和大小的大的变化,以及低对比度的文本和复杂的背景,往往使领带非常具有挑战性。找到一个完全鲁棒的和广义的方法,为配合仍然是一个领域的研究。已经有很多的努力来解决这些问题。文本提取技术可分为四大类。第一类是基于边缘[ 1 ],假设高对比度的文本和背景之间的差异。它是快速,可以有很高的召回率。然而,它往往会产生许多假警报,因为背景也有类似的文本的强大的边缘。第二类使用连接成分分析(CCA)[ 2 ],其中颜色相近的像素分为连接的组件,然后在文本区域。CCA是快速但它失败时,文本是不均匀的,文字部分的图像是不占主导地位。第三类是基于纹理[ 3 ]和假设,文本具有特定的纹理模式。这是更耗时,可以失败时,背景是杂乱的文本。第四类是基于频率[ 4 ]。在这种方法中,文本是在频率从背景中提取出来(例如:小波)域。这也是耗时,和频率表示可能不会比空间表示。最近,有很多使用模式分类技术的兴趣(如AdaBoost算法[ 5 ],支持向量机[ 6,8],BP神经网络[ 9 ]和[ 10 ])的文本定位。通过精心设计的功能,包括文本的各种属性的帮助(如几何、颜色、纹理和频率),这些技术往往是成功的所有文本与背景。

TTS和语音合成是一种产生ntelligible自然人工语音技术,对于一个给定的文本,[ 11 ]。用于TTS的方法是利用声表示的语音合成,语音合成在一起的语言表述,再加上语言的文本分析提取的正确发音(content”;你说的是什么)和韵律上下文(melody”一句;它是怎么说的)。语音合成系统可分为两个部分我)前端也被称为自然语言处理(NLP)[ 12 ]模块用于分析文本,和ii)后端也被称为信号处理模块,生成基于从前端信息的语音波形。前端包含:文字处理器(归一化和字母的声音),韵律控制,单元选择[ 13 ]。所以它基本上是关注转换字母-音素。这个过程称为“letter-to-sound”转换。后端与合成技术有关。有两种技术[ 14 ]:格式合成[ 15,16,17 ]和拼接合成[ 18、19、20 ]。格式的合成取决于为声学模型产生参数化驱动的语音,而拼接合成,将录制的语音段。格式合成可以很容易理解的,但由于获得足够好的语音模型的困难和复杂的任务,合成语音具有迄今为止,语音质量在某种程度上。而拼接合成可以在具有接近人类语言的语音质量意识是很自然的,但它可能遭受的声音不连续在连接点。

系统设计: 该系统可大致分为两大模块:如图1所示的OCR模块和语音模块。文本是使用扫描仪获取并输入OCR模块的图像扫描。在表的左边的角点作为坐标原点,和欧氏几何是。

该系统可

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[147051],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。