跨文档到HTML转换工具的跨域评估,用于在文档分析期间量化文本和结构损失外文翻译资料

 2021-11-15 21:28:08

英语原文共 6 页

跨文档到HTML转换工具的跨域评估,用于在文档分析期间量化文本和结构损失

摘要

在取证文本分析中,在处理大量文档时,过程的自动化是关键。由于文档通常具有各种不同的文件类型,因此需要开发定制工具来分析每个文档,并且正确地识别提取的元素以便进行分析而不会丢失。这些文本提取工具通常会省略文档中无法读取的文本部分,在法医文本分析过程中会出现严重的不一致。作为这种解决方案,单一输出格式HTML被选为统一的分析格式。对HTML / CSS提取工具的文档进行了测试,每个工具都有不同的技术将常见文档格式转换为丰富的HTML / CSS对应文件。这种方法可以通过利用单一文档格式减少法医文本分析期间所需的分析工具的数量。设计了两个测试,一个10点文档概述测试和一个48点详细文档分析测试,以评估和量化输出HTML结构的损失程度,错误率和整体质量。本研究的结论是,利用多种不同方法并对文档结构有所了解的工具可以在损失最少的情况下获得最佳结果。

I.引言

在许多不同的领域中,通常由许多不同的作者构建大型文档库,每个文档具有各种不同的格式化技术和样式。当需要对这些存储库中的文档进行取证文本分析时,手动分析变得不再可行。

尽管使用了各种不同的文件类型,但绝大多数通常是这些文件类型的子集合。这些文件类型包括Microsoft .doc,.docx,.ppt,.pptx和现在开放的标准.pdf。每个文档包含不同的内部表示,例如纯文本,XML和二进制文件,以及在文档呈现过程中使用的不同方法。

这种不同的文件类型在法医文本分析的过程中提供了一个基本问题,需要创建不同工具来处理每种不同的文件格式。

作为多文件问题的解决方案,可以使用单个样式和基于表示的格式(例如HTML)作为桥接格式,可以将所有文档转换为该格式。由于HTML已存在多年,目前存在多种工具用于将常见文件格式转换为HTML。当正确使用HTML时,可以应用HTML来创建原始文档的相同表示,并用于代替原始文档,以在分析文档时提供更好的可搜索性和更灵活性。存储库中的文件数量也会导致问题,因为手动转换文件不再成为可行选项,因为转换每个文件所需的时间。因此,需要一种自动转换工具。

本文概述了在第二部分中用于文本文本分析的文档转换过程中出现的背景问题。第III部分概述了本研究中处理的文档类型和内容变体。第四部分概述了目前可用于将文档转换为HTML / CSS对应的各种工具和方法。

第五部分概述了实验1和实验2,用于衡量所选工具的损失水平和输出质量。最后,第六部分反映了本研究的总体结果。

II.背景技术

将PDF文件转换为HTML可以使用许多不同的工具来完成,每个工具都实现了不同的方法[1] [2]。通常生成HTML文档以创建先前无法索引的文档的基于web的表示,因为它们是完全基于文本的。这种从文档中提取文本的需求已导致对该领域正在进行的PDF到HTML转换过程进行了大量评估[3]。

文档布局和样式信息的使用已经进行了多年。基于HTML结构的分割[4]已经被用于信息提取过程中。利用DOM树和边界框来辅助额外处理已被用于许多不同的目的,例如帮助搜索和文本匹配[5],[6],[7]。

当使用脚注,表格大小和非标准格式化技术时,每个用于转换为HTML的工具可以在生成过程中包含任意数量的不同文件。这引起了输出文本质量未对准的初始问题,并且由于OCR识别错误,文本部分被省略以及单词拼写错误[8]。

输出质量的这些不确定性导致需要正确地测量输出质量,以防止这些问题影响未来的法医文本分析步骤。

III.文档分析

每个文档由许多不同的页面或幻灯片组成,每个页面或幻灯片使用不同的格式在不同的布局中具有不同数量的内容。为了帮助分类过程,文档中的所有文本都被分成不同的类别来描述文本的类型。

bull;如果不存在HTML H1标签或类似内容,则首先将文本,样式和位置组合在一起的文本通常位于页面顶部,目的是引起读者的注意,这被认为是页面的主标题。

bull;应用重点高于文本主体的文本,通常是段落标题或部分标识符,被视为2级标题。

bull;在整个页面/大小中使用的大量文本具有相同的大小,没有暗示强调,并且小于认为级别1或级别2的任何其他内容被认为是正文。

文本的重点可以用于不同方式的数量。对于标题和子标题,文本的大小是表示重点的最常见方式之一。通常可以看到其他更微妙的替代品,如粗体,下划线和斜体。文本的段落和正文通常通过使用字体样式的变化而不仅仅通过使用文本大小来完成。

A.数据提取损失

在提取过程中,通常会丢失大量数据。与使用简单文本文件不同,文本编辑工具提供各种不同的样式和内容结构化工具。使用这些工具的结果是丰富的样式内容。使用这些工具的主要缺点是以前简单的文本通常用非基于文本的元素表示,例如标题文本的复杂字体和样式表示为图像。

在文本提取过程中,如果不包括附加的文本识别工具,则表示为图像的文本经常丢失。此丢失的文本可以包含1级标题和有用的描述性文本,将文档保留为一定数量的正文文本,不带任何标题。

文档通常还包括使用其他软件包(如图表或图形)创建的大量图像。这些图表通常包含其他标题和描述性正文,这些文本在被视为完整文本主体时对文档至关重要。如果文档主体主要是基于图像的,并且如果提取过程不习惯于识别图像中的文本,则该文本经常丢失。

IV.提取方法和可用工具

从文档中提取数据可以通过多种不同方式完成,每种方式都强调文档和文本的不同方面。这些方法可以通过以下方式进行总结:

bull;文本的准确性更高,更少关注文本的定位和布局。

bull;更强调文本的定位而不太重视文本质量。

bull;更加强调格式质量例如,文本粗体,斜体,下划线。

首先,对可采取的不同方法进行了评估。纯光学字符识别(OCR)方法将文档视为单个图片,并尝试从图像中提取文本。 OCR工具的常见输出是hOCR [9],这是一种混合HTML格式,包含格式信息和标识文本。

文档布局分析(DLA)(如Ocropus1和OCR Feeder2)结合了OCR引擎和其他文档布局知识,可以最大限度地将输入文件转换为HTML输出。这些工具特别适用于具有已知标准布局的文档,例如会议和期刊论文,其中标题和描述性信息始终位于预定位置。在尝试识别和提取内容之前,此静态位置提供了文档的工具和理解。

存在许多转换库,它们试图理解文档类型以创建更好的输出。这些工具中的每一个都使用许多不同的技术来产生所需的输出。 pdftohtml3是一种广泛使用的工具,用于将PDF文件转换为HTML文件。 unoconv4是流行的开源文档套件OpenOf fi ce(最近分叉的LibreOf fi ce)的一组绑定。 Adobe Acrobat Pro5是一个桌面应用程序,它提供PDF文件转换为许多不同的所需输出文件格式。如果不确定某段文字,可以使用其他OCR工具。

V.质量评估

为了测试存在转换为HTML的工具数量,创建了许多不同的测试来正确测试每个不同的工具。 实验1(第V-A节)旨在测试所有工具的功能概述。 实验2(第V-B节)是一个完整的测试,旨在更详细地测试少量工具。 在此测试中,评估了所选工具的精确文档特征和质量。 本节介绍这些测试以及每个工具的执行方式。

A.实验1:输出质量概述

表I概述了经过测试的工具。 每个工具都在10种不同的通用输出分析检查(见表III)中进行测试,例如整体输出的质量,字体颜色分析,字体大小错误和省略的文本。 工具类型在表I中标识为纯OCR,DLA或组合(在处理期间使用文档理解和OCR方法)。

1)数据集收集和样本集:文档存储库由来自各种不同来源的各种文档组成。为了复制这一点并从数据收集过程中消除任何偏见,使用Google进行随机数据收集,并使用关键字和文件类型特定要求。这方面的一个例子是工程相关文档,搜索工程文件类型:pptx。然后返回的结果可以被分类为随机的,因为它们来自各种不同的来源。对于每个测试,数据集由5个不同的主题领域(计算机科学,工程,医学,社会关怀,心理学),5种不同的文件类型(doc,docx,pdf,ppt,pptx)组成,每个都有3个随机幻灯片。选择进行测试。这为许多不同领域的每个工具创建了总共75个幻灯片。

2)测试结果:评估文本的粗体,斜体和下划线以查看它是否在输出中正确表示。字体变体用于识别原始文档字体中的差异是否在输出中正确表示。由于许多工具没有创建可接受标准的HTML / CSS输出,因此进行了评估以识别输出的HTML结构,例如列表和表格以相对HTML结构输出,而不仅仅是视觉上可接受的HTML布局。

Insomecasestoolsfailedtop生产输出特定文件类型,防止提取幻灯片/页面进行分析。这些失败的转换在表II中标识。

T1 Tesseract是纯OCR解决方案。 要使用此工具,文档首先转换为基于图像的表示。 总的来说,该工具的结果并不令人满意,因为很少强调文本的格式和样式。 在产生的文本中也遇到了许多不同的错误。 这些错误通常归因于文本样式的复杂性。 表III概述了该测试的结果。 进行了额外的检查以确保输出是原始文档的准确表示,并且输出的HTML可以被认为是详细的,例如, HTML / CSS不是原始文档的简化输出。

T2 Ocropus要求在处理之前将所有幻灯片/页面转换为基于图像的表示。该工具无法正确转换75个不成功转换中的37个文件。大多数失败归因于基于高风格的格式,例如.ppt和.pptx演示文稿,并使用.doc和.docx文件进行了更成功的转换。虽然成功,但输出的整体质量很差,错误率很高。输出的样式也很稀疏。由于转换过程中出现大量故障,此工具会自动从任何进一步分析中排除。

T3 pdftohtml要求将所有文档转换为PDF对应文件。为此,使用了原生文件类型转换工具。所有文档都已成功转换为HTML。此工具主要侧重于文档的可视布局,以创建高度,视觉上准确的布局表示。此过程的主要问题是创建的HTML是HTML div标签的复杂表示。句子和文本的自然分组被分解为破坏文本语义的较小元素。在文档中替换了诸如项目符号列表和表格之类的HTML结构的表示,以支持基于div的表示。在输出的文档中看到许多不同的文件,例如单词之间的颜色出血和未正确表示的字体的变化。在许多情况下,文本中也存在错误,其中两个字母(如t和i)在一起被错误地表示为@符号。此工具中的字体通常默认为Times New Roman。整个文档中的下划线不一致。总的来说,该工具的重点放在文本的视觉布局上,而不是文本或HTML的质量。表IV概述了结果。pabilities。最初尝试直接转换为HTML并不成功。该工具只能正确转换75个边/页中的15个。在成功的转换中,只有.doc文件成功。所有其他文件类型未成功转换。由于很大一部分转换是不可能的,因此该工具被排除在任何进一步的分析之外。

T5 unoconv为LibreOf提供了一组额外的绑定。在转换过程中,桥接在其他文件类型之间完成,以允许文件成功转换为HTML。该工具成功转换了75页/页中的60页。 PDF文件例外的所有文件类型都已成功转换。创建的输出缺少样式和字体变化。所有表示都被删除,删除任何其他图像和文本。没有尝试将基于图像的文本转换为常规文本。编号列表通常表示为常规项目符号列表。虽然子弹列表的结构是正确的HTML,但通常情况下,列表上方或下方的文本将成为列表中的另一个项目。标题文本经常从文档中省略,将二级标题拉高至一级标题。基于图像的幻灯片被工具完全忽略,在整个文档中创建了许多空白页面/幻灯片。所有页脚和页眉通常都被排除在流程之外,在文档的最开始时只打印一次,在文档的最后打印一次。这种文档的概述表示导致大量文本被省略。完全停止和线的序列通常从输出中排除。两列句子通常合并在一起创建一个句子,在白色空格之间省略。表V概述了结果。

T6 Adob​​e Acrobat Pro允许从任何文件类型转换为html。对于doc,docx,ppt和pptx等文档,通过Acrobat使用本机转换工具进行转换,例如: Microsoft无法将原始文件类型转换为PDF。从该工具导出的结果HTML被证明具有非常高的质量。输出中包含的格式是详细的HTML。在某些情况下,两个列布局已合并,破坏了语义。然而,句子和段落表示非常好,几乎没有分解。文本格式的详细信息会创建文本的复杂表示。这会导致文本以对角线形式运行,尽管每页/每页上的所有文本都是相同的并且相对于该页面/幻灯片正确定位。正确保留了原始文档中的样式信息。正确表示字体强调,如下划线,粗体和斜体。对于任何文本样式,都发现很少甚至没有流血的文字。表VI概述了结果。

3)结果回顾:总体而言,文本提取的组合方法被证明是最佳解决方案。基于OCR / DLA的解决方案没有提供所需的详细HTML,并且通常省略或错误地表示所有字体样式。在考虑字体样式和详细的HTML输出质量时,Adobe Acrobat Pro被证明可以提供最佳结果和最高精度。 unoconv提供了高质量的输出,但由于文档的复杂性增加而且没有处理PDF文件,因此逐渐恶化。

对于非基于布局的工具,两列布局总是会导致句子破坏语义合并的问题。非标准方向的文本,例如40度角度问题的文本。从输出的质量,pdftohtml,unoconv和Adobe Acrobat Pro中选择进行详细的进一步分析。

B.实验2:完成输出测试

从原始工具集中,考虑使用较小的一组来更详细地分析输出质量。表VII列出了所选工具。开发了一项测试来评估每个文档的48个不同方面,以便更好地理解文档的输出质量,内容丢失,布局和样式。

1)数据集收集:在收集第二次测试的数据集时,对第一次测试采用了类似的方法。 在这5个领域(计算机科学,工程,医学,社会关怀,心理学)中进

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。