2013 12th International Conference on Document Analysis and Recognition
Figure Metadata Extraction From Digital Documents
Sagnik Ray Choudhurydagger;, Prasenjit Mitradagger;Dagger;, Andi Kirk?, Silvia Szep?, Donald Pellegrino?, Sue Jones?, C. Lee. Gilesdagger;Dagger;
dagger;Information Sciences and Technology, Dagger;Computer Science and Engineering,
The Pennsylvania State University, University Park, PA 16802 USA
? The Dow Chemical Company, Spring House, PA 19477 USA
sagnik@psu.edu, pmitra@ist.psu.edu, {andikirk,sszep,dapellegrino,susanjones}@dow.com, giles@ist.psu.edu
Abstract—Academic papers contain multiple figures (information graphics) representing important findings and experimental results. Automatic data extraction from such figures and classification of information graphics is not straightforward and a well studied problem in document analysis[6]. Also, very few digital library search engines index figures and/or associated metadata (figure caption) from PDF documents. We describe the very first step in indexing, classification and data extraction from figures in PDF documents - accurate automatic extraction of figures and associated metadata, a nontrivial task. Document layout, font information, lexical and linguistic features for figure caption extraction from PDF documents is considered for both rule based and machine learning based approaches. We also describe a digital library search engine that indexes figure captions and mentions from 150K documents, extracted by our custom built extractor.
I. INTRODUCTION
Figures in documents are rich sources of information and there has long been interest in the problems of classification and automatic extraction of data from such figures. Many such documents are in PDF formats. Although figures are of such importance, except for a few (such as Yale Image Finder1, BioText2 and askHermes3), most digital libraries do not allow users to search specifically for figures in their documents. Currently, available figure search engines index figures in documents from the PMC4 repository, which provides a dataset of images and associated metadata for figures appearing in documents. But in most cases, academic document repositories have only the PDF file for a document, from which figures and associated metadata will have to be extracted.
We describe an extraction process for extracting figures and their associated metadata (caption, mentions) from PDF documents. We utilize document layout and font information based features along with lexical features to identify figure captions inside a document. We also design and develop a scalable Solr/Lucene based figure metadata search engine built on top of extracted figure metadata from chemistry journal papers. However, these methods will also work for other scientific domains. Our search system uses a modified ranking function of Lucene to improve the quality of search results.
1 http://krauthammerlab.med.yale.edu/imagefinder/
2 http://biosearch.berkeley.edu/
3 http://figuresearch.askhermes.org
4 http://www.ncbi.nlm.nih.gov/pmc/
II. RELATED WORK
Classification of figures in academic documents has been explored extensively[6], [8]. Figures were analyzed extensively, with attempts to vectorize raster images[2] or extract data from 2D plots and solid line curves[5]. However, these work did not address the figure and metadata extraction process itself. For example, [5] extracted text below the figure to use as textual features for classification, but accurate extraction of figure caption was not investigated.
Recently a method [4] was proposed for extraction of images and captions from PDF files with images extracted from PDF documents using Xpdf5. Captions are extracted using regular expressions and filters. A figure caption would be a paragraph starting with the term “Fig.” or “Figure”. Extracting paragraphs from PDF documents by parsing the document is mentioned but not explained in detail. Since the PDF document manual6 does not explicitly mention operators for identifying paragraph boundaries, we believe that they used structural information such as coordinates of text. Apart from structural information, we explore several features for paragraph segmentation. Since all paragraphs starting with the term “Fig.” or “Figure” are not actual captions, extraneous paragraphs need to be removed, say by a filter [4]. Extracted captions are matched with images using structural and geometric cues.
Bhatia and Mitra reported a regular expression based method for extraction of document element captions, which is the first step in our approach[1] . Therefore, our precision should be equal or better than theirs. Search engines on specific document elements such as table [3] or acknowledged entities7 have been reported earlier. Our system is a continuation of this line of work and more importantly can be readily integrated with other search features; a preliminary description of the search engine and a rule based extractor[7] was recently reported.
III. EXTRACTION PROCESS
A. General Strategy
The process of extraction of figures and associated caption from a document has three sub tasks: 1. Extraction of the image
5 http://www.foolabs.com/xpdf/
6 http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/ PDF32000 2008.pdf
7 http://ackseer.ist.psu.edu
1520-5363/13 $26.00 copy; 2013 IEEE DOI 10.1109/ICDAR.2013.34
135
file corresponding to the figure, 2. Extraction of caption and 3. Associating figures with captions. Our system is implemented to work on PDF documents.
1) Extraction of figures and text: We use a popular Java based PDF processing library PDFBox to extract text (text lines
剩余内容已隐藏,支付完成后下载完整资料
从数字文档中提取元数据
一.摘要:
学术论文包含多个图形(信息图形),代表重要的发现和实验结果。从这些图形中自动提取数据并对信息图形进行分类并不是一件简单的事情,这也是文献分析[6]中研究较多的一个问题。此外,很少有数字图书馆搜索引擎从PDF文档中索引数字和/或相关的元数据(图说明)。我们描述了从PDF文档中的数据中建立索引、分类和提取数据的第一步——精确地自动提取数据和相关的元数据,这是一项非常重要的任务。基于规则和基于机器学习的方法都考虑了从PDF文档中提取图标题的文档布局、字体信息、词汇和语言特征。我们还描述了一个数字图书馆搜索引擎,索引图标题和提及从15万份文件,由我们的自定义构建提取器提取。
我的介绍。
文件中的数字是丰富的信息来源,长期以来人们一直对从这些数字中分类和自动提取数据的问题感兴趣。许多这样的文档都是PDF格式的。尽管数字是如此重要,除了少数几个(如耶鲁图片搜索、传记),大多数数字图书馆不允许用户专门搜索文档中的数字。2 3目前,可用的数字搜索引擎从PMCrepository索引文档中的数字,PMCrepository为文档中出现的数字提供了一个图像和相关元数据集。4 但在大多数情况下,学术文档存储库只有文档的PDF文件,必须从中提取数据和相关的元数据。
我们描述了从PDF文档中提取数字及其相关元数据(标题、提及)的提取过程。我们利用基于文档布局和字体信息的特性以及词汇特性来识别文档中的图标题。我们还设计和开发了一个可扩展的基于Solr/Lucene的图形元数据搜索引擎,该引擎建立在从化学期刊论文中提取的图形元数据之上。然而,这些方法也适用于其他科学领域。我们的搜索系统使用了改进的Lucene排名函数来提高搜索结果的质量。
二.相关工作
对学术文献中数字的分类进行了广泛的探讨。对图形进行了广泛的分析,尝试对光栅图像[2]进行矢量化,或从2D图和实线曲线[5]中提取数据。但是,这些工作并没有处理图和元数据提取过程本身。例如,[5]提取了图下的文本作为文本特征进行分类,但是没有研究对图标题的准确提取。
最近提出了一种利用Xpdf5从PDF文档中提取图像的方法,即[4]。标题是使用正则表达式和过滤器提取的。图标题是一段以“Fig”开头的文字。”或“人物”。文中提到了通过解析文档从PDF文档中提取段落,但没有详细解释。由于PDF文档手册没有明确提到标识段落边界的操作符,我们认为它们使用了文本坐标等结构信息。6 除了结构信息外,我们还探讨了段落分段的几个特性。因为所有以“Fig”开头的段落。或“图”不是实际的标题,无关的段落需要删除,说由过滤器[4]。提取的标题与图像匹配使用结构和几何线索。
Bhatia和Mitra报告了一种基于正则表达式的方法来提取文档元素标题,这是我们的方法[1]的第一步。因此,我们的精度应该和他们一样或更好。关于特定文档元素(如表[3]或公认实体)的搜索引擎在前面已经报告过。7 我们的系统是这一行工作的延续,更重要的是可以随时与其他搜索功能集成;搜索引擎的初步描述和基于规则的提取器[7]最近被报道。
三.提取工艺
答:一般策略
从文档中提取数字和相关标题的过程有三个子任务:1。图像的提取
与图2对应的文件。标题和3。把数字和字幕联系起来。我们的系统是用来处理PDF文档的。
1)图形和文本的提取:我们使用一个流行的基于Java的PDF处理库PDFBox来从PDF文件中提取文本(文本行按顺序提取,因为它们出现在原始文件中)和栅格图形(用于图形元素、位置、长度和宽度的图像文件)。PDFBox或其他常见的PDF处理库(Xpdf、PyPDF)不适合提取矢量图形。8此外,它们也不从扫描的文章中提取文本,这些文本需要OCR来处理。
2)字幕提取:为了提取字幕,我们将文本中的一行分为总行、字幕开始行和字幕结束行。标题开始行和结束行之间的所有行都是标题的一部分。后面将更详细地解释字幕提取过程(III-B和III-C节)。
3)字幕配图:从图下的矩形R中提取文本,获取图id(图在文档中引用的编号,如“Fig 1”、“Fig”。2.3、“图5(a)”等)。矩形R的参数为:
Rxy:左上角的x和y坐标。
Rw和Rl:矩形的宽度和长度。
在图跨越多个列的单列和多列文档中,Rxy是图下方页面中最左边的点,Rw是页面宽度。在图跨越一列的多列文档中,Rxy是图下一列中最左边的点,Rw是列宽。矩形的长度(Rl)保持在200像素。部分字幕可能会在盒子里被捕捉到,还会有一些杂音。因此,我们仅使用此文本来标识图形id,而不是整个标题。对于id为fi的图,我们将标题与“Fig”关联起来。或者“Figure fi”。
基于规则的图形标题提取器,使用文档布局和基于字体的功能
利用文档布局和基于字体的特征,我们开发了一个基于规则的提取系统。该系统将图形和图形标识符(id)一起提取,然后从id开始搜索图形说明,过程如算法1所示。算法的步骤在这里有更详细的说明。
预处理:首先提取包含术语“fig- ure”或其词典变体的所有行,并创建一个列表Lrv。在搜索图片说明时,为了提高计算效率,使用了Lrv而不是整个文本。对于每一行,将提取该行的长度、字体大小和字体权重作为以后使用的特性。提取与图形元素(图形)、位置和尺寸对应的图像文件。
数据:PDF文档。
结果:数字,匹配的标题和提及。从文档d中,提取列表Lrv中包含术语“figure”或“fig”的所有文本行;
对于文档全文中的每一行都做
在列表中存储行长度、字体大小、字体粗细);
结束
对于文档d中的每个figure fi,使用PDFBox提取figure fi;
提取图fi下的矩形文本;从提取的文本中找出id fidi;如果没有提取id
输出图形的图像文件;打破;
其他结束
标题=提取标题(id);提到=提取提到(id);如果标题为空
标题=提到[1]
结束
图形输出图像文件,标题和说明元数据文件;
结束
结束
算法1:从PDF文档中提取数字、相关标题和提及内容的算法。
2) figure id的确定::为了识别figure id,下面的语法用于从figure下面的矩形中提取文本:
lt;标题gt;:= lt; FIGTERM gt; lt; ID gt;
lt;标识gt;:= lt; NUMID gt; lt; CHARID gt;
lt; NUMID gt;: = lt;数字gt; (。| lt;数字gt;)lt; CHARID gt;: = (lt; PUNCT gt;)lowast;lt; CHAR gt; (lt; PUNCT gt;)lowast;lt; FIGTERM gt;: =图|图图| |无花果。lowast; lt;数字gt;:= 0:9
lt; PUNCT gt;: = (| | |))
lt; CHAR gt;: = a: |: z
这里的关键假设是图的标题应该跟在图后面。尽管情况并非总是如此,但反例并不常见,尤其是在科学论文中。另外,图像和字幕可以单独提取,然后根据距离进行匹配,这样会牺牲处理的精度。
3)字幕提取:字幕起始行以“Fig”开头。”或“人物”。由于所有这些行都不是实际的标题开头行,所以需要对这些行进行过滤。此外,需要对标题开始行下面的行进行筛选,以识别标题结束行。我们的过滤器基于从布局和字体信息中提取的特征。
Line length(i,j):如果Line i gt; length(第一个和最后一个字符的x坐标之差)的阈值为10%,则返回true,否则返回false。
粗体(i):如果第i行中的字符是用粗体字体写的,则返回true,否则返回false。
FontSize change(i,j):如果行i和j的平均字体大小相差一个阈值(平均字体大小中值的10%),则返回true,否则返回false。
通常,在单列文档中,标题开始行比前一行的长度要短,而在大多数图中,标题结束行比下一行的长度要短。而且,大多数标题开头的行都以粗体字符开头(如图1),一般来说,标题行与文本中的其他行具有不同的字体大小。
开始行提取:我们首先在列表Lrv中搜索以“Figure”或“Fig”开头的行。然后是我在前面步骤中提取的id。所有匹配的行都存储在一个可能的标题列表中,标题开始是PCi行。让CBi表示fi的实际标题开始行。提取CBi的步骤如下:
对于PCi中的每一行lj
如果((Line length(l,l-1) amp;粗体(l))或(Line length(l,l-1) amp; FontSize change(l,l-1))或(FontSize change(l,l-1) amp;粗体(l))) CBi=lj;j j j j j j j j j j
打破;
通过前面提到的任意两个过滤器的第一行lj被认为是与CBi匹配的。
标题结束行提取:如果在前面的步骤中CBi为空(没有通过过滤器的行),标题提取方法将返回空标题。否则,每一行,包括和后CBi检查长度差异或字体大小差异。满足任何一个条件的第一行被认为是与选择相匹配的标题结束行。对于嵌入在同一列中的图形,将按顺序提取标题行。因此,对于每一行,都要检查下一行是否是标题的开始行,这意味着当前行是另一个标题的结束行。
使用正则表达式提取包含术语“figure”(或其词法变体)后面跟着id fi的其他行。在每个这样的行下面和上面的7行被组合在一起来创建图fi的提到元数据。
C.标题行提取的词汇特征
我们开发的基于规则的系统是一种可扩展的方法,可以从非扫描的PDF文档中以合理的精度提取标题行。本系统采用了基于文档布局和字体信息的功能。这些特性的提取依赖于底层库,并且可能因不同的文档格式而有所不同。在本节中,我们将探讨用于标题开始行和结束行标识的语言和词汇特征,这些特征更一般、更独立于域。
1)字幕起始行识别功能:给定以“Fig”开头的文本行。或“图”,我们把它归类为标题开头行或不。在标题开头的行中,id后面是一个新句子,因此id后面通常是一个名词短语。相反,以“Fig”开头的句子中名词短语所在的句子
术语“数字id”本身。因此,id后面的单词通常是动词。我们使用一个开放源代码的词性标记(POS) tagger9来标记行,并使用前面提到的语法来收集第一个单词的POS标记和id。由于词性标记工作在句子层面,我们标记句子的一部分,所以标记的准确性不高。因此,我们还要考虑后面跟着id的单词是否以大写字母开头,对于大多数标题开头的行来说是正确的,而对于相反的情况来说是错误的。我们还考虑了数字id后面的标点符号。某些标点,如“:”在id之后,几乎可以肯定表示标题的开始行,而“)”等标点则表示其他类。其特点概括如下:
POSTag:一个二进制特性,指示id后面单词的POS标记是否是动词。
大写:一个二进制特征,指示id后面的单词是否以大写字母开头。
标点符号:根据数字id后的标点符号分配一个概率值(如果标点符号是“:”,则为1;如果标点符号是“”,则为0;否则为0.5)。
2)字幕结束行识别的特点:给定字幕开始行以下的行,我们的目标是将它们归类为字幕结束行或不归类为字幕结束行。这种二分类问题类似于段落分割问题,其目标是从自由文本中识别段落边界。对于段落分割,之前已经探讨了几种基于解析树和基于内聚的特征,其中两个特征被认为是最有用的[9]:1)相对位置:当前句子的前界长度;2)Word1, Word2:句子的第一个和第二个单词。其他重要的特征包括未闭合的标点符号、句子之间的词汇相似性(词汇内聚)、回指线索(术语如“this”)、解析树的节点。提取这些特征需要对文本进行句子分割,这本身就是一个难题。我们的特征来自这些特征,但是不同,因为我们使用行作为输入的单位而不是句子。我们使用了以下功能:
距第一行的距离:概率(一行是标题结束行)随着距标题开始行的距离的增加而增加。这个特征被赋值为0.5 0.5x(距离最近的标题开始行/10的距离),这表示标题开始行本身是标题结束行的可能性中等,而距离为10的是非常可能的。
未封闭的标点符号:标题的结尾行显然是段落最后一句的一部分。在一行中出现未闭合的标点符号(大括号、引号)很可能表明该行不是标题结束行,但是,不包含此类标点符号的行同样可能是标题结束行。根据前面的条件,这个特性被赋值为1或0.5。
下一行第一个单词:下一行的开头出现“Figure”或“Table”这样的单词表示新标题的开始,表示当前行是的结束行
另一个标题,而其他词没有什么特别的含义。在此基础上,赋予该特征一个高概率或中等概率值。
前一行的最后一个字符:标点符号如,,;或 - 表示当前的句子还没有结束,使目前的行不可能是标题的结束行。其他字符是非歧视性的,因此被赋予中等概率。
字符比率:在格式良好的文本中,每行的字符数通常是相似的,除了段落结束行比上一行和下一行的字符数少。这一思想通过赋值(|cl 1/clminus;cl/clminus;1|)来编码到这个特性中,其中cl是行l中的字符数。这个“稀疏线”特性在表提取[3]之前已经被有效地使用过。
这里提到的特性通常对确定段落边界很有用。在我们的系统中,标题开始行以下的十行被归类为标题结束行
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238320],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。