文本编辑器中词法和句法简化功能的集成外文翻译资料

 2021-12-25 16:53:32

英语原文共 10 页

外文翻译

文本编辑器中词法和句法简化功能的集成

摘 要

如今,随着新技术的快速发展,这是非常困难的是社会的积极成员,除非有人在阅读精通。不幸的是,有很多的经验谁读或写问题的人。谁创造了这些群体 的 人的材料专家很少有用户友好的工具在他们的处置,以准备易读的文本。目前的工作已经与提供的文本简化的专家谁准备英文易于阅读的文本,这就是为 什么 不同的自然语言处理工具已集成在一个已有的文本编辑器支持的目标完成。

关键词:文字简化; 易于阅读; 词汇简化; 句法简化; 自然语言处理

Abstract

Nowadays, with the rapid development of new technologies, it is very difficult to be an active member of the society unless one is proficient in reading. Unfortunately, there are a lot of people who experience reading or writing problems. Experts who create materials for these groups of people have few user-friendly tools at their disposal in order to prepare easy-toread texts. The present work has been done with the aim of providing support for text simplification experts who prepare easy-to-read texts in English, which is why different Natural Language Processing tools have been integrated in an already existing text editor.

Key Words: Text simplification; Easy-to-read; Lexical simplification; Syntactic simplification; Natural Language Processing

目 录

1. 介绍 5

2. 相关工作 6

2.1. 易于阅读 6

2.2. 文字简化项目 6

2.3. 自然语言处理工具 7

3. 扩展与简化文本功能的文本编辑器 8

3.1. 为简化处理的辅助部件 8

3.2. 通过简化的文本的分析决定所希望的功能 8

3.3. 词法简化插件:同义词 10

3.4. 句法简化插件:斯普利特 11

4. 讨论 13

5. 结论和未来的工作 14

致 谢 15

参考文献 16

介绍

理解一篇文章的能力以其允许的方式显着提高了读者的信心,他们获得新的见解并控制自己的生活。 然而,无数人缺乏充分发展的能力,能够流利地阅读,书写或理解书面文本其结果是,该方式编写文 字或呈现的信息可能会阻止这些人在社会经济活动的参与他们的社会。正是这个原因,各种协会与组织,出版社,和公共机构的工作,就如何编写遵循易于阅读的标准文本提供指导。然而,很少有过系 统地试图研究这个话题,而作为结果,组织和个人,如编辑,作家,教师,或调整了一块写易于阅读标准的翻译时遇到困难。无论是文字容易阅 读和理解显著依赖于读者的能力和经验。因此,易于阅读文本的概念,不能通用,这是不可能的准备一块写的是满足所有个人的需求与阅读和理解的问题。因此,目前的工作主要是供谁通过简化书写的现有作品这是更难以理解创建易于阅读的文本人。有各种各样的自然语言处理(NLP)的工具, 可 以帮助这些专家,如从复杂的单词的定义或同义词可以提取字典; 适用句法成分分析或提供给定语句,这进而允许用户探索其句子的部件可被简化 句法依赖关系树应用; 等等。一个问题是文本简化专家倾向于遇到使用这些工具时,是他们缺乏一个友好的用户界面,而且往往需要计算机科学和 编程的一些背景知识的事实。在试图提供一个解决这个问题,我们已经创建了一个包含一些先前存在的工具,使他们能够通过谁创建易于阅读 的 文本工作的专家很容易使用的应用程序。有了这个目标,我们开发了基于现有的文本编辑器灵活的结构。它包括所有应提供给文本简化的专家 ,另外,它能够轻松集成用于不同的文本简化的任务(具体工具的基本组件,例如,用一个字一个同义词,复合句拆分成简单的等)。

相关工作

在本节中,我们介绍了一些相关的在我们工作所在的领域,在该领域的现有解决方案,以及我们在实施这项工作的过程中使用的工具的概念。

易于阅读

易于阅读是一种运动,旨在创造出培育有效的沟通,并且可以通过人与阅读理解困难阅读和理解清楚的书面材料。根据欧洲准则的生产易于读 取信息[1],一个易于阅读的文本是一个只包含最相关的信息,表达和最直接的方式呈现,所以它的内容可能通过尽可能多的人能够理解。 易于阅读的文本适用于个人,其阅读能力比成人母语的低。这些人占了发达国家人口的30%。我们可以将它们分为两大类[2]:人的临时阅读 困难(谁尚未达到熟练掌握接受国语言的移民,有限的人的文化信息,小学的孩子谁是学习阅读,等等。 ); 人们永久阅读困难(由于身体残疾 ,如听力或视力障碍,或心理障碍,如诵读困难,失语等) 欧洲易于阅读指南[1]帮助创建易于阅读的文本和内容,语言和文字组织方面为读者提供指导。尽管他们的共性,并考虑到一个事实,即容易读 的是不是一个普遍的概念,这些准则更容易适应残疾人比那些临时阅读困难的需要。一般四建议可供选择:使用简单和直接的语言; 表达每个句子的一个理念; 避免技术术语,缩略语和缩写; 并组织以明确和连贯的方式文本。重要的是要注意

文本是如何构成的,因为它有一个清晰连贯的方式组织是非常重要的。不必要的想法,也就是说,从句或句子应避免或消除。图片,图表和符号。

应该是一个伴随的援助。其目的是创建一块写的,可以很容易地阅读和尽可能多的人能够理解。

文字简化项目

葡萄牙项目PorSimples [3]提供的技术解决方案,帮助人们有认知障碍的访问信息。该项目提供了两个系统两个组的目标用户。在一方面,编辑 工具建议,帮助作家创作和批准简化文本。在另一方面,作者提出一个系统,帮助残疾人士访问某些网页内容,如政府文本或一般新闻; 其结果是, 数字包容性和可访问性的提升。

在词法简化范式PSET项目[4]中脱颖而出。其目的是在新闻文本的简化英语的人与失语,这是由他们从共发现提取简单同义替换词很难实现[5]。为了确定单词难易度,牛津语言数据库中查阅[6]。Caseli等。[7]在创建由人类注释施加葡萄牙语和提取的词汇简化操作的平行语料库。他们用 简 单的单词的列表和工具来帮助他们开展同义词替换话语标记列表。 西班牙Simplext项目[8]的主要目的是要建立一个自动文本的简化系统。该项目促进基于易于阅读的原则内容自动转换的手段有限的人的认知能 力 的技术包容。 有其它语言进行了大量的其它研究和方法基于由原始文本和使用说明书的简化[15,16]的平行语料库的分析。

自然语言处理工具

有许多自然语言处理(NLP)的工具,可能是编辑人员适应通过简化文本,以易于阅读的标准是有用的。但是,这些工具并不容易,因为他们 需 要专家的一定水平,其编辑专家通常缺乏使用。以下是在这项工作中最重要的工具的描述。

OpenNLP。 OpenNLP 一个 是一套基于机器学习技术的自然语言处理工具。它提供的援助为最常见的NLP任务,如句子检测,断词,部分OF- 讲 话(POS)标签,等等。 共发现。 共发现[5]是英文一个巨大的词汇数据库。名词,动词,形容词和副词分为套计价的同义集同义词。每个同义词集传达给定词的含义不 同。用于查阅WordNet的一个有用的接口,其可以被集成在外部代码是轻量级的WordNet [17]。MorphAdorner。 MorphAdorner b 是一组由美国西北大学创建并划分成更小的,独立的应用程序的Java应用程序,可以单独地或彼此结合使用 。虽然通过MorphAdorner提供NLP工具的范围很宽,在这项工作中,我们只用了pluraliser,为了与我们希望简化的话单数和复数形式的合作。

扩展与简化文本功能的文本编辑器

这里介绍的工作,旨在为中英文文本简化支持。我们决定实现它使用的jEdit灵活的方式 C, 现有的文本编辑器,并且更具体地通过使用一系列插件。因此,我们建议用于所有与简化流程插 件一些普通的功能,因此,任何新的简化操作可以实现为一个单独的插件,但使用一组通用的辅助功 能的。这种模式允许简化专家来启用或关闭根据自己的切身需求转变,而适用于所有简化操作的基本组件始终运行。

jEdit的是与多平台支持一个开源纯文本编辑器,并且它可以很容易地配置和个性化。为了扩展其功能,使jEdit的引进不同的插件,这可以从它 的 官方网站从软件创作者页面下载或直接的。除此之外,还有在资源,打造一个项目,称为jEdit的插件中心 d, 它允许任何用户创建和发布自己的插件。

为简化处理的辅助部件

意在由所有的插件被使用的基本部件包括一个辅助模块,它示出了在用户友好的方式的信息,并且其中由编辑器应用的所有更改均保存一个日 志的创建。

BasicHighlighter。 为了纪念文字为用户的某些部分或允许他们指出可能的简化,有必要突出的jEdit文本的不同部分。与实施该组件的目的, 我们 开发了一个辅助模块作为一个已经存在的插件(高亮的简化版本 E), 这使得突出显示不同颜色的单词或正则表达式。 日志。 我们的系统还存储日志中通过不同的插件应用的所有简化操作的XML格式。该日志已实施充分考虑其未来可能的用途,它存储所有必要的 信息,研究应用简化步骤,在未来的某一时刻的方式。在更改已应用的顺序也很重要,因为它使我们能够分析其中的专家简化文本的方式,使 这 一进程的未来的自动化。包括这种信息系统在未来开辟了很多可能性,它可以作为一个起点,开发一个自动文本简化应用程序。

通过简化的文本的分析决定所希望的功能

为了确定哪些简化操作可以准备一个易于阅读的文本是专家有用,我们已经进行了与谁被要求简化短文,因为他们发现最好的英语为母语的初 步研究。这项研究为我们提供了不同的初步结论,但我们打算在未来进行深入的应用简化操作的分析。图3.1总结了我们已经确定了简化操作。

图3.1 简化操作的各种频率

在最常用的操作是文本的改写或重构中,要表达它在一个简单的方法。例如,句子: “ 据意大利导航代码,一个队长谁放弃一个 船舶危险可能面临长达十二年徒刑” 由取代的 “ 意大利船工人的规则说,谁离开船中的问题队长可以去坐牢多达12年 ” 表达不同的词汇和语法结构相同 的想法。

在词汇层面非常频繁的操作是名词,并认为合并有相当的表述或条款,尤其是动词的同义词的替换。例如,第 “谁是由海岸警卫队官员发现” 用 取代 “谁看到乘船工作者”; 和 “混乱和可怕 evacua 重刑又起” 简化为 “疯狂和可怕的救援过程中”。 在句子 “该 队长放弃了灾区衬垫所有乘客必须上课前 身披斗篷” 在研究的参与者选择了替代品具有简单的同义词各种单词,产生的刑期为 “船长留下的损坏 船前所有的人 船已经离开”。 在其他的文本,我们观察到的相同类型的简化。例如,动词形式 “出现” 用取代 “一个 p peared” 和 “联系了” 被改变成 “已经呼过他了”。 从一个语法点

资料编号:[3689]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。