英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
基于智能代理的数字图书馆信息检索系统
师雪霖, 牛振东, 宋瀚涛 , 宋丽哲
摘要:本文主要论述了一种新的信息搜索模型,并给出了基于智能代理的数字图书馆信息检索系统的设计与实现。该系统是一个辅助信息检索的系统,它可以用来帮助用户搜索他们需要的信息。这个系统由四个主要组成部分构成:接口代理,信息检索代理,代理agent和学习代理。它们组合在一起,协作实现系统功能。这些代理应用了基于改进过的ID3算法的学习机制。
关键词:智能代理;信息检索; 代理协作; 机器学习
近些年以来,数字技术已经极大地改变了传统图书馆的工作模式。 从一个调研报告的角度来看,数字图书馆可以看作是电子馆藏,它的内容之丰富,功能之强大,相较于数据库或信息检索系统都更胜一筹,数字图书馆的数据在互联网上的可访问性也是一个重要的优势。
数字图书馆为我们提供了大量的信息,但数字图书馆的迅速扩张也带来了信息超载的问题。 用户不得不花费更多的时间去浏览网页,以便找到所需的信息。 解决上述问题的一种方法是开发智能数字图书馆信息检索系统以提供个性化的信息检索服务:检索出用户所期望的信息并帮助他/她决定他/她想要的信息。
对于这样的系统,一个问题必须特别考虑,那就是由于数字图书馆的资源庞大,可能存在大量具有各种形式的数据,普通用户通常难以处理这些资源。 因此,应该有个性化的辅助信息检索(IR)系统来指导用户在大型数字图书馆的数据空间中检索。
因此,助理信息检索系统被期待具有与用户交互的特定领域知识和能力。因此系统可以接收和分析用户的当前需求,然后评估相关信息的相关度以帮助他识别最需要的信息。这种助理信息检索(IR)系统的性质需要使用启发式解决方法的技术。在本文中,我们特别使用了一种称为AOP(代理编程)的新编程技术。
本文基于中国国家图书馆和中国数字图书馆公司正在进行的研究活动,其中中国国家图书馆和中国数字图书馆公司是中国数字图书馆(CDL)的联盟成员。中国数字图书馆是1997年由中国国家计划与发展委员会发起的国家重点高新技术项目。在数字图书馆领域,我们专门设计并实施了软件代理至如下方面:
①优化数字图书馆数据空间中的信息检索;
②为用户提供个性化的服务;
③减少网络过载;
④在系统节点中自动安装和维护代理。
1数字图书馆信息检索
在大型数字图书馆数据空间中的信息检索是用户的基本功能,因为数字图书馆的目标是每周7天,每天24小时不间断地通过互联网提供信息。因此,数字图书馆信息检索必须具备以下特点:
①在检索过程中与用户交互的能力,这保证了信息检索过程中可以动态修改信息检索策略以满足用户需求。
②对用户透明。 虽然目标数据是分布在各种物理平台上,但用户不受影响。
③友好和个性化的界面。
信息检索的核心是搜索模型,搜索模型可以通过搜索的方式进行分类:
①布尔逻辑模型(BLM),
②模糊逻辑模型(FLM),
③矢量空间模型(VSM)等。
布尔逻辑模型是最简单的搜索模型,它只使用0或1来评估对象数据和查询之间的相关性。这个模型不能区分搜索结果的相关程度。为了解决这一问题,模糊逻辑模型被提出了,在模糊逻辑模型中采用模糊计算方法来评估相关程度。因此,搜索结果可以按照相关程度来排序。与布尔逻辑模型不同,矢量空间模型将用户查询转换为n维向量,以匹配预先定义的特征描述。因此,我们可以通过向量空间的相似性来处理搜索结果。
数字图书馆建立在传统图书馆的基础上,后者建立了完善的元数据标准。 因此,数字图书馆信息检索系统可以采用这些标准来建立数字资源的索引。由于元数据表示由许多项目组成的某些对象数据,因此通过相关度和模糊逻辑模型索引很方便。两个模型一起工作会产生更好的搜索效果。
图1数字图书馆IR搜索模型
我们的搜索模型,如图1中所示,表示一种分析用户给定的某个查询Q的方式。 Q被转换成n维矢量{},其中是Q的第i个分量,它表示Q中指定的第i个属性。
因此,检索过程可以被看作由两个阶段组成:第一阶段(映射搜索阶段)是一个预览,具有更多地与用户交互的特征; 第二个阶段(检索阶段)对用户是完全透明的,在这个阶段可以获取前一阶段确定的相关数据。
映射搜索阶段是搜索基于元数据索引构建的多维度向量空间中的相似映射。一个分量被映射为多维度向量空间中的一个向量。在这个阶段结束时,用户可以对结果的相关性进行评估。在下一阶段中,对象数据可以从也许分布在各处的远程数据服务器中获取。
2系统架构和代理
2.1系统架构
本节介绍处理数字图书馆数据空间信息搜索(数字图书馆IR)的系统的总体架构。每个代理自主执行特定的任务,并一起协同工作以完成整个任务。系统架构如图2所示。
图 2数字图书馆助理系统的体系结构
在图2中, 使用以下代理来实现上述目标:
①接口代理(IA);
②信息检索代理(IRA);
③代理agent(BA);
④学习代理(LA)。
接口代理通过在前端提供类似浏览器的环境供用户与用户进行交互以供用户浏览。当用户需要信息时,他/她所必须做的就是给接口代理提供他/她正在寻找的信息的高度概括。接口代理将采取用户的查询并将其翻译成呈现形式为XML的向量; 我们使用XML格式来描述查询,搜索结果和用户配置的文件。然后,接口代理“唤醒”信息检索代理,它在用户连接到的信息检索服务器中“沉睡”,并且在此过程中接口代理通过提供翻译后的用户查询来操作并激活信息检索代理。完成这些过程后,接口代理会回到睡眠状态,等待信息检索代理的响应(搜索结果)。
此外,接口代理记录用户的检索操作的结果并跟踪用户的反馈,然后将它们发送给位于后端的学习代理。这些记录将用作学习代理的训练实例,所以学习代理可以改善用户配置的文件。因此,当用户再次通过系统检索信息时,接口代理将查找出用户配置的文件以找出用户的偏好并优化查询。
信息检索代理将在每个信息检索服务器中等待,直到被接口代理唤醒。信息检索代理负责从接口代理获取查询向量并查找元数据索引。当用户决定获取某些对象数据时,信息检索代理会唤醒与远程数据服务器连接的代理agent并获取数据。
学习代理是我们的辅助信息检索系统的核心。它根据用户配置的文件中记录的训练示例来维护用户配置文件。学习代理为每个用户建立偏好模型,以便接口代理可以帮助用户细化和优化他的查询,这样就可以获得更完美的搜索结果。 该模型实际上可以被认为是一个分类器,它将不熟悉的项目识别为一些类别中的一个,这些类别表示某些信息的不同偏好程度。搜索结果中收集和记录的最新特征向量被用作构建分类器的训练样例。
2.2代理合作
每个代理通过发送和接收消息的方式来与其他人进行通信。为确保通信的成功,所有代理必须遵守一项通用协议。在我们的系统中,我们使用KQML(知识查询操作语言)作为代理之间消息交换的标准语言。知识查询操作语言是一种众所周知的代理通信语言(ACL)。 它是一种声明性语言,采用这种语言的消息由线性字符流组成。 消息的重要领域是发送者,接收者,本体,语言和内容。 特别是,“内容”字段的值通常用于指定消息。
接下来,我们以接口代理为例来说明代理如何工作并与其他代理进行交流。
接口代理收到用户的查询后,将其翻译成呈现形式为XML的向量并唤醒信息检索代理。它还会记录用户的搜索操作,并将其存储在用户配置文件中。 它有以下行为:
①休眠和等待:接口代理正在睡觉,正在等待查询。
②获得用户查询:接口代理已被用户唤醒并获取查询。
③查找配置文件:接口代理在用户配置文件中查找用户的偏好模型。如果模型存在,接口代理会建议用户改进他的查询。
④创建消息:将查询翻译成XML格式的向量。这是将发送给信息检索代理的消息的“内容”字段。
⑤向信息检索代理发送消息:信息检索代理被激活并开始工作。
⑥等待消息:接口代理正在等待信息检索代理的结果。
图3是由接口代理发送给信息检索代理消息流程的示例。该行为的“内容”字段就是查询向量。
因为我们的系统只有接口代理,信息检索代理,代理agent和学习代理这四种代理,它们是在没有信息服务人员的情况下互相沟通的。因此每个代理都应该知道其他代理并存储他们的信息。如果代理太多,则会占用大量内存。但是它并不会影响我们的系统。每个代理只知道它与之通信的代理,所以它至多知道2个其他代理。没有协调者,这个信息只是从一个代理发送到另一个代理,通信效率提高。
图3 KQM L消息的示例
3学习机制
为了使我们的系统更加智能化,我们应用了机器学习技术,以便从以前满意的查询的经验中学习。
由于学习代理将从收集到的用户历史搜索操作中构建用户模型,我们的系统采用基于归纳的学习机制。 归纳学习从正面例子和负面例子的训练样本中获取新规则。决策树只是归纳学习机制之一。决策树中有很多算法,最有影响的是Quinlan在1979年提出的ID3 。 在我们的系统中,我们使用改进的ID3算法。
在学习阶段,学习代理使用用户配置文件中记录的搜索结果作为训练示例,并使用该算法来选择适当的特征,并将其相应的权重确定为用户的偏好模型。 在学习过程中,熵的下降速度被用来衡量每个属性的相应权重。熵下降的速度越快,越多的属性对应于用户的偏好。 计算熵的一种方法是
(1)
当接口代理的性能由于用户偏好的变化而下降时,学习代理将使用训练样例的方式来计算熵并修改用户的偏好模型。
所有训练实例都以XML格式进行呈现和存储。图4显示了一个训练实例。为了预测用户对某个搜索结果R满意或不满意的程度 ,我们利用该算法首先将R转换成一个n维向量{ri},向量每一个维度表示一个属性。然后学习代理计算向量每个维度的熵H i ,H i是它的权重。因此这些属性和权重组成了用户的偏好模型。 表1给出了这种模型的一个例子。
图 4 LA的一个训练例子
表1用户的偏好模型
模型属性 |
权重 |
值 |
语言 |
0.205424 |
中文 |
作者 |
1.000000 |
|
出版社 |
1.000000 |
|
学科 |
0.349738 |
管理学 |
CC |
0.358952 |
C93 |
来源 |
0.881513 |
CN-NLC |
日期 |
0.689526 |
二十世纪九十年代 |
特别是,属性的权重越小,属性测量用户的偏好就越重要,因为它的熵越来越低。 如果权重等于1,则表示该属性与用户的偏好不相符。 在上面的示例中,模型显示此用户喜欢中文文档。此外,由于语言属性的权重是其中最小的,这可能表明中文是用户熟悉的语言。当用户通过系统进行信息检索时,接口代理会询问用户他/她是否只需要中文文件。
4实验结果和分析
我们已经实现了使用Java的系统体系结构和代理,如果操作系统支持Java语言,这一特点使系统可以在任何类型的工作平台上运行。
为了评估所开发的系统,本节描述了所进行的实验。 在实验中,我们专注于评估学习代理。 我们首先研究学习代理如何发展偏好模型,然后进行一系列实验来测试模型。
在训练阶段,使用了60个例子(用户档案中记录的搜索结果):其中一半是正例,另一半是负数。 培训结束后,学习代理建立了一个偏好模型(见图5)。该模型显示用户喜欢中文文档和管理方面的内容。 当用户再次使用系统进行搜索时,接口代理会询问用户他/她是否只需要中文文件进行管理,这样可以避免大量无用的文件被重新找回,从而增加系统的过载。 事实上,这个模型是正确的,因为我们模拟了一个只能读懂中文并且对管理感兴趣的用户。
5结语
在本文中,我们陈述了数字图书馆的需要,提供了个性化的信息检索服务来创建可访问的数字图书馆资源。我们还提出了实现这一目标的有希望的方法:开发助理数字图书馆信息检索系统。因此,在这项工作中,我们提出了一个基于软件代理技术的系统,它是目前正在开发的更广泛项目的一部分。已经描述了系统架构,并讨论了实现方面。机器学习技术被用来增加代理从以前满意的查询经验中学习的能力。
在组建中国数字图书馆的过程中,会产生大量的数字资源。但是,中国数字图书馆没有足够重视为普通用户提供个性化服务。因此,我们的系统在中国数字图书馆的为普通用户提供个性化服务方面是一个有价值的尝试。
进一步的研究将改进搜索模型,使检索效率更高。另外,代理之间的合作和沟通机制也需要改进。需要对系统进行更多的实证评估,这将使系统适用于数字图书馆应用领域。
参考文献:
[1] Marcum D B. Digital libraries: For whom? for what? [ J] .The Journal of Academic Lib
全文共6681字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13852],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。