Document management system
US 5893908 A
摘要
An electronic document management system that takes advantage of advanced document analysis techniques. The electronic document management system may provide automatic archiving of documents and retrieval without the need to navigate through a directory structure or specify a filename. Document comparison is facilitated by automatic retrieval of a previous version of a document. A digital copier alerts a user when a document to be copies already exists electronically within a database.
说明
STATEMENT OF RELATED APPLICATIONS
The present application relates to the subject matter of another application entitled 'AUTOMATIC AND TRANSPARENT DOCUMENT ARCHIVING' Ser. No. 08/754,721, co-assigned with the present application and filed on the same day. The contents of the 'AUTOMATIC AND TRANSPARENT DOCUMENT ARCHIVING' application are herein incorporated by reference for all purposes.
BACKGROUND OF THE INVENTION
The present invention relates to an electronic document management system for and more particularly to such a system that exploits advanced document analysis techniques.
Electronic creation, editing, and storage of documents has become commonplace. However, paper documents remain important and the processes of printing, faxing, and copying are still central to document distribution and management. The reasons for the continued centrality of paper are varied. Paper documents are easy to review and annotate, portable, and in fact represent a 'universal standard' for display, a goal yet tantalizingly out of reach in the electronic world.
Current document management techniques do not acknowledge the continued use of paper or the reasons for it. For example, consider existing systems for storage and retrieval of electronic documents. Typically, a document is specified for retrieval by navigation through a hierarchical directory structure and reference to a file name. However, if the hierarchical directory structure and accompanying file names are not created with great care, retrieving a desired document becomes very difficult because it will be nearly impossible to identify. Studies of electronic filing have found that users usually fail to put in the effort to establish proper electronic filing schemes, often because the effort required is not justified by the value of the information.
By contrast, paper documents are inherently recognizable by appearance. A quick glance is all that is required. Proper filing of paper documents for later retrieval requires a certain administrative discipline but the retrieval process itself is facilitated because paper files themselves are recognizable by titles on their face and by the appearance of their contents.
Present electronic document comparison procedures, i.e., procedures designed to highlight the differences between two versions of a document, are ill-suited for the hybrid world of electronic and paper documents. They assume that both versions of a document to be compared are available electronically and may be readily identified, conditions that are often not satisfied. For example, geographically dispersed authors using two different word processors may communicate with paper hardcopy drafts. Furthermore, it may be difficult to identify and retrieve a previous electronic version of a document for the reasons given above.
What is needed is an electronic document management system that recognizes the continued use of paper documents while facilitating electronic document filing and document comparison.
SUMMARY OF THE INVENTION
The present invention provides an electronic document management system that takes advantage of advanced document analysis techniques. An electronic document management system may provide automatic archiving of documents and retrieval without the need to navigate through a directory structure or specify a filename. Document comparison is facilitated by automatic retrieval of a previous version of a document. Another aspect of the present invention provides that a digital copier alerts a user when a document to be copied already exists electronically within a database.
One basis for the document management advances of the present invention is a family of document analysis techniques that involve the development of special descriptors that characterize a document. A document database stores descriptors for stored documents to facilitate later retrieval. The retrieval process may include development of descriptors for a search key document. The best match to the search key document is determined by comparing its descriptors to the descriptors in the database.
Descriptor technology and related search techniques have been developed by researchers at Ricoh California Research Center, an assignee of the present application and are described in the following U.S. patent applications, all of which are expressly incorporated herein by reference for all purposes:
IMAGE MATCHING AND RETRIEVAL BY MULTI-ACCESS REDUNDANT HASHING, U.S. application Ser. No. 08/222,281, filed Apr. 1, 1994 now U.S. Pat. No. 5,465,353.
HIGH SPEED RETRIEVAL BY EXAMPLE, U.S. application Ser. No. 08/523,731, filed Sep. 5, 1995.
ICONIC PAPER, U.S. application Ser. No. 08/431,059, filed Apr. 28, 1995.
One aspect of the present invention provides a hypertext interface system for navigating through a sequence or tree of document versions. To support this interface, an automatic archiving system may automatically associate new versions of documents with previous versions.
Another aspect of the invention provides automatically developed queries. For example, a user may present a page or icon as a search key to find an electronic intermediate version of a document. The automatic search includes development of descriptors of
剩余内容已隐藏,支付完成后下载完整资料
文档管理系统
USA 5893908
摘要
电子文档管理系统采用先进的文件分析技术的优势,不需要通过目录结构导航或指定一个文件名就可以提供的文档检索和自动归档。以前版本文档的自动检索促进了文档比较。当拷贝的文档已经在数据库中已经存在电子版时数字复印机通知用户。
说明
相关申明的说明
本申明涉及另一个题为“自动和透明的文档归档”的申请,编号08/754721,且与本申请共同委派并在同一天存档。“自动和透明的文档归档”申请的内容包含了所有目的的参考。
发明背景
本申明涉及的一种电子文档管理系统,用于更明确地开发一个具有先进文档分析技术的系统。
虽然电子创建、编辑和文件存储已经成为家常便饭,纸质文档仍然举足轻重。打印、传真和复印的过程仍然是文件分发和管理的核心。始终以纸张为中心的原因是多种多样的。纸质文档易于查看、注释并便于携带,实际上代表了一种“通用标准”展示——这是电子世界遥不可及的一个目标。
当前文档管理技术不承认继续使用的纸张和其原因。例如,考虑现有的存储和检索电子文档系统。通常情况下,指定检索一个文档是通过分层目录结构和参照文件名。然而,如果分层目录结构和对应的文件名称没有正确创建,检索到希望的文件几乎不可能,并且会变得非常困难。对电子归档的研究发现,由于将付出的努力与信息的价值不匹配,用户通常不会努力去建立一个适当的电子文件归档制度。
与此相反,纸质文件是由外在固有识别,快速浏览是所需的全部。虽然适当的纸质文档归类要求一定的管理纪律,但对于检索过程是有利的,可以通过纸质文件封面的标题和展示的内容来识别。
目前电子文档比较程序,旨在突出一个文档的两个版本之间的差异,是不适用于电子文件和纸质文件混杂的世界。他们认为,虽然要比较的文件的两个版本都是电子版可以很容易识别,但往往达不到这个条件。例如,分散在不同地方并使用两种文字处理器的作者可以通过用纸张来交流。以上给出了难以识别和检索一个以前的电子版本的原因。
所需要的电子文档管理系统能在继续使用纸质文档的同时促进电子文件归档和文件比较。
发明概述
本发明提供一种电子文档管理系统,该系统采用了先进的文档分析技术的优点。电子文档管理系统可以提供文档自动归档和无需通过目录结构导航与具体的文件名的检索。通过对以前版本文档的自动检索促进文档比较。另一方面,当复制某个已经存在于电子数据库中的文档,本发明充当了一种数字复印机警报员的角色。
本发明对于促进文档管理的主要原理是一种涉及发展表现文档特征的特殊描述词的文档分析技术。以便日后检索,文档数据库存储文档的描述词。检索过程可包括用于搜索关键文件的描述词。通过比较描述词和存入数据库的描述词来决定搜索关键文档的最佳匹配。
理光加州研究中心研究人员发展描述词技术和与搜索相关的技术,它是本应用的代理人,也被美国专利应用引用。以下清楚地包含了是所有参考目的:
图像匹配和多路存取的冗余散列检索。美国申请序列号08/222281,存档于1994年4月1日,现在的美国专利申请编号5465353。
高速检索实例,美国专利申请序列号08/523731,归档于1995年9月5日。
图标纸,美国申请序列号08/431059,归档于1995年4月28日。
一方面,本发明提供了一个用于通过序列或文档版本树来导航的超文本接口系统。为了支持这一接口,自动归档系统可以自动将新旧版本进行关联。
另一方面,本发明提供自动制定查询。例如,用户可能用一个页面或图标作为检索键来查找到一个电子文档中间版本。自动搜索包括搜索键描述符的发展和自动归档描述符的比较来寻找最佳匹配。用户可以通过超文本界面系统识别最佳匹配,然后使用超文本界面导航找到文件的最终版本。
本发明的性质和优点的进一步理解可参考说明书的剩余部分和附图。
附图的简要说明
图1描绘了依照本发明的一个具体的办公设备的网络。
图2描绘了适用于实现本发明的代表性的计算机系统。
图3是描述操作根据本发明的一个实例中使用的数据结构。
图4是描述依照本发明的具体的归档电子文档步骤的流程图。
图5是描述根据本发明的一个实例查询文档数据库的步骤的流程图。
图6A展示了根据本发明的一个实例具有线性版本结构的超文本文件浏览界面的显示屏。
图6B描述了根据本发明的一个实例展示的具有树状结果的超文本浏览界面的显示屏。
图7是根据本发明的一个实例描述操作数字复印机104来提醒用户文件是已经可用的电子版步骤的流程图。
图8描绘了由数字复印机产生以提醒一个文件是已经可用电子在根据本发明的一个实施例的用户的显示屏幕。
图9描绘了根据本发明的一个实例来比较文件版本的步骤。
图10描绘了根据本发明的一个实例,检测的文件内的非本地变化的步骤。
图11描绘的高亮显示了根据本发明的一个实施例的文件内的非局部变化。
电子文档的自动存储的具体实施系统说明
图1描绘了根据本发明的一个具体的办公设备的网络100。办公设备的网络100互连计算机系统102,数字复制机104,传真机106,激光打印机108和扫描器110。计算机系统102还连接到访问一个大容量存储设备112。
计算机系统102可以收集来自任何复制机104,传真机106,激光打印机108,扫描仪110的信息。在其正常运行的过程中,所有这些设备捕获代表文档的图像信息。例如,对于要复制的每个文件,复制机104捕获表示文档的数字信息。用户可以请求该计算机系统102把从大容量存储设备112抓取的图像信息存档。自动存档系统在与本申请一起分配和同一天提交的“文档自动和透明归档”一文中有描述。
图2描述的是适合于本发明实例的计算机系统102适的方框图。图2展示的计算机系统102在办公网络100的构建中或本发明的其它功能实例中都有作用。计算机系统102包括连接子系统的总线程212,子系统诸如中央处理器214、系统存储器216(典型RAM)、输入/输出(I / O)控制器218、外部设备如经过显示适配器226的显示屏224、串行端口228和230、键盘232、存储接口234、软盘驱动器236操作以接收软盘238和CD-ROM播放器240操作以接收在CD-ROM242。存储接口234连接到一个固定的磁盘驱动器244或大容量存储设备如图1展示的大容量存储设备112。固定磁盘驱动244可以是计算机系统102的一部分也可以通过其它接口系统分离和存取。许多其他装置可以连接诸如经由串行端口228连接的鼠标246和经由串行端口230的网络接口248。网络接口248提供经由电话链接的远程服务器或经由POP(入网点)的网络的直接连接。许多其他装置或子系统(未示出)可以以类似的方式连接。
此外,没有必要对图2所示的所有装置操作本发明,如下面所讨论的内容。的设备和子系统可在从图1中所示不同的方式进行互连。 设备和子系统可能会通过图2所示的不同方法进行连接。如图2所示,计算机系统的操作在本领域中容易知道,并且在本申请中不会详细讨论。实现本发明的代码操作切实可行或者存储在计算机可读存储介质,诸如系统存储器216、固定盘244、光盘242或软盘238。
自动创建归档结构
图3是描述操作根据本发明的一个实例中使用的数据结构。根据本发明的这个方面的存档系统可以被理解为结合三个不同的数据结构以帮助查询和检索。文档数据库302存储代表归档文档的信息。该信息可以包括,诸如文档图像的位图和从OCR结果、Postscript文件,文字处理文件等等衍生的文本数据。
描述符数据库304列出了多个识别文档特征的描述符。对于每一个描述符,文档在文件数据库302有识别特征的能被列出。这个描述信息大大方便查询。更好地,描述符数据库304为每个描述符实现一系列链表306。在该链表中的第一项包括一个指针308指向一个具有由描述符所标识的特征的文档的标签310。该标签也指向另一个此类文件标签310或表明链表末尾的空指针。为了节约存储空间,每个描述符的第一个指针308存储在内存序列。内存中的位置就足够识别每个描述符的第一个指针。在一些实现中,通过存储每个被描述符能够找到标识特征的特定位置的标签信息来查询数据库更有效。
超文本数据库312显示存储在文件数据库302的文档的版本关系。更好地,超文本数据库306包括每一系列的文档版本的HTML网页。图3展示两个被简化表达的典型网页314和316。每个HTML页包含存在于文档数据库302中的HTML链接锚,该HTML链接锚包括存在于文档数据库中的文件名。页面上标题的缩进显示了版本之间的关系。可选地,HTML页面还包括识别该文件是归档日期和信息识别哪些办公设备项目是文件进入系统的入口点。
页面314展示了一个父版本文档“标题1”318。 “标题2”320和“TITLE3”322是兄弟关系。“标题2”和“标题3”相对于“标题1”的凹槽证明“标题3”不是“标题2”之后的版本,但似乎各自衍生自“标题1”。页316展示了具有同样缩进的“标题4”324和“标题5”表明“标题4”是“标题5”唯一的上一个版本。
图4是描述依照本发明的具体的归档电子文档步骤的流程图。在步骤402,运行于计算机系统102的文档管理系统捕获文档的图像进行归档。此步骤遵循复制机104,传真机106,激光打印机108,扫描仪112等的操作,在步骤404,形成在文件的描述符。描述符的形成可以涉及也可不涉及中间的OCR处理。
在步骤406,文档管理系统可以以各种方式来更倾向于为新文档取一个标题。例如,它可以从一个标题页提取标题。如果该文件来自激光打印机,打印任务的标题将从激光打印机发送到计算机系统102,在步骤408时,文档管理系统将文档存储在文档数据库302中。在步骤410时,文档管理系统为每个在步骤404形成的描述符存储标签,该标签指向文档位置或存储于描述符数据库304的文件名。
存档步骤412使用描述符来查找已经存在与文档数据库302的最近匹配的文档,并且假定新文档的上一版本已经被归档。匹配过程包括查找的文档与新文档的共有的最接近的描述符的得分。在一些实现中,为不同的描述符给予不同的权重来计算得分是合适的。
在步骤414,文档管理系统在超文本数据库312中搜索最匹配文档的链接。在超文本数据库312,此链接的上下文中表明了最佳匹配文档版本间目前已知的关系。在步骤416,文档管理系统参考超文本数据库312确定最佳的匹配文档是否代表最新的版本。如果是,那么在在步骤418中,超文本数据库将更新最近的归档文档是最佳匹配文档唯一的上一个版本。
在HTML页面,最新归档文档将直接显示在最佳匹配文档的标题下。如果最佳匹配文档不是最新的版本时,超文本数据库在步骤420更新,以表明新归档文件是以下的最接近匹配的文档的同级版本。下个版本的标题和新存档文档的标题在最接近匹配的文档的标题进行缩进。在任一情况下,新文档的标题和归档的时间、日期和办公设备代表的文档资源信息一起存储在超文本数据库中。
在一个可选实施例中,一个附加的步骤可以被添加。如果一个新捕捉的文档图像与先前存储的所有文档不同,它被识别为超文本数据库312中的一个新的“根”文件。
文献数据库Oueries
每个文档的有效描述符存储在数据库302中,以便之后的查询。用户可以通过扫描文档的一个或多个页面或全部扫描或以其他方式指定表示文档图像的缩略图标来搜索所需的文件。这类图标的产生和应用在专利申请《ICONIC PAPER 》有描述。
图5是描述根据本发明的一个实例查询文档数据库的步骤的流程图。扫描指定的搜索关键字的搜索过程开始于步骤502。在步骤504,描述符成为检索关键字。在步骤506中,文件管理系统使用存储在描述符数据库304的描述符来搜索最佳匹配。最佳匹配被确定为具有共同的描述符与从检索关键字中获得的那些文档。在一些实现中,不同的描述符将在确定的最佳匹配被给予不同的权重。在步骤508,文档管理系统检索具有最匹配链接的超文本页面并显示如图6A-6B以促进检索最佳匹配或进一步导航检索。
图6A展示了根据本发明的一个实例具有线性版本结构的超文本文件浏览界面的显示屏600。第一个展示条目602包括标题604,、归档日期606和源图标607。标题604是一个用户可以选择检索被识别的文档的链接。源图标606表示被标题604识别的文档将进入数字复印件的结果被归档。第二个显示条目608包括标题610、归档日期612和源图标614。标题610与标题604显示相同的缩进以指出标题610标识的文档是标题604标识的文档唯一的衍生物。源图标614指定当文档被传真的时候归档。
图6B描述了根据本发明的一个实例展示的具有树状结果的超文本浏览界面的显示屏616。显示屏616包括条目618、620、622、624和包括相应通讯标题628、630、634、636和638的626;对应的归档日期640、642、644、646和648;源图标650、652、654、656和658。标题630和632标识的文档来源于被标题628标识的文档。标题634和636标识的文档来源于被标题632标识的文档。源图标650和658指定被识别的文档在传真时被存档。来源图标652和654指定被识别的文档杂打印时存档。源图标656指定被识别的文档在复制时存档。命名图标660和662表示文档的所有者。
数码复印机警报lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[146664],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。