PIDALION: Implementation issues of a Java-based
Search Engine over the web
multimedia content, queries, content-based retrieval, multimedia crawler, metadata, image histogram, hierarchical presentation
- Fuelled by the rapid expansion of broadband descriptors according to their own perception. Fuzzy connectivity and increasing interest in online multimedia-rich organization of the descriptors is proposed in [5] for applications, the growth of digital multimedia content has increasing the retrieval precision at a certain recall value, skyrocketed. Among others, this growth is compounding the while 3D searching is discussed in this.
retrieval is examined in the work presented in provide matches of poor quality in case of multimedia content.
but not least, Marvel the latest and more intelligent possibility that the internet users still lack. Thus, the scope ofpaper is to present an implementation approach for a content-based search engine, developed by the IBM research personalized web-based multimedia search engine in the Java centre, USA in 2004 [10], tries to increase the retrieval programming language.However, all the adopted approaches innovative features which guarantee at the same time thestatic and local access only to the systemrsquo;s databasersquo;s quick response and better search results. components required to form a multimedia search engine, as Furthermore, the aforementioned works focus on the well as indications on how to implement key algorithms and algorithms for efficient content-based retrieval and not onpractical issues regarding the implementation of a large functions.multimedia search engine over the Web. So far, several different techniques for making distributed 1. INTRODUCTION multimedia content searchable have been proposed.
outgoing links, analyzing the referring page, mining for The amount of information on the web is growing rapidly textual information in the media file and utilizing metadata and so is the number of new users inexperienced in the art of using the Dublin Core metadata model or the MPEG-7 web research. It is estimated that 1-2 Exa-Bytes (millions of standard. Tera-Bytes) of new information are created each year over This paper focuses on describing a multimedia search the Web. This huge amount of information is anticipated to engine that combines features from existing search engines grow by a factor of 10 in the following two years. and enhances their functionalities through innovative Automated search engines that rely on keyword matching algorithms and mechanisms. The situation the systemrsquo;s architecture and interconnectivity, but also to is worse as far as multimedia content is concerned. The most explain how the algorithms can be implemented in Java popular search engine, Google [1], relies only on keywords code. The proposed system, named PIDALION, runs on to search for images and does not contain any information Windows environment, while the JavaServer Pages (JSP) on semantic content. Content-based image retrieval systems and Java Servlets technologies are adopted to ensure the (CBIR) try to solve this problem. Many CBIR systems have systemrsquo;s interoperability and dynamic behaviour. The been recently proposed and implemented in the literature. systemrsquo;s database runs on SQL Server 2000. One of the key Examples include the QBIC system [2], where colour features of the proposed search engine is the provision of information is exploited, the PicToSeek system [3], which fulhttp://www.1mpi.com/doc/72a631f1a32ce26f74dc934fly personalized retrieval services: users of PIDALION combines colour and shape invariant features to perform may share their personal content either with all web users or image retrieval and Virage [4] that allows the users to within the frame of groups, as well as maintain a personal manually regulate the importance of the extracted profile, where their preferences are stored. Personalized can be achieved through the creation of social groups and the use of dynamic relevance feedback mechanisms, which tailor the systemrsquo;s performance to the current userrsquo;s preferences.
paper is organized as follows: Section 2 presents the systemrsquo;s architecture, explaining briefly the role of each main component. Sections 3 to 7 present the functionality, architecture and key features-innovations of each The subsystem in question is responsible for locating and indexing multimehttp://www.1mpi.com/doc/72a631f1a32ce26f74dc934fdia content. The architecture analysis of the multimedia crawling subsystem owes to cover the issues of detecting new web pages and storing the relevant information in the systemrsquo;s database. In Google [15], web crawling is carried out by several distributed crawlers. A URL server sends to the crawler lists of URLs to be fetched. The web pages that are fetched are afterwards sent to the component. Key algorithms are depicted in the form of pseudo-code. Finally, in Section 8 the issues covered in this paper are summarized and future expansions are proposed.
. SYSTEM OVERVIEW
. 1. Interconnection between subsystems
platform described in this paper consists of the following subsystems:
The index multimedia content and handle the updating of multimedia crawling subsystem, whoshttp://www.1mpi.com/doc/72a631f1a32ce26f74dc934fe role is to the indexing process
The metadata from multimedia content, according to the multimedia metadata subsystem, which extracts MPEG-7 descriptors achieving in this way interoperability
The responsible for scanning the database for multimedia retrieval and display subsystem, which is content that matches specific criteria and forwarding it to the interface subsystem.
The and communication between the user and the system, interface subsystem, which enables the interaction provides a functional projection of retrieved content and allows the composition of complex queries
The necessity of storing larg
全文共27263字,剩余内容已隐藏,支付完成后下载完整资料
基于java在网页上搜索引擎的实现问题
多媒体的内容、查询、基于内容的检索、多媒体爬虫、元数据、图像直方图、层次显示,
在宽带描述符的快速扩展的推动下,根据这些技术展现出了对模糊连接和对网络多媒体丰富组织的兴趣的增加,数字多媒体内容的增长在一定的有记忆的请求和响应中增加了检索精度并急剧上升。在其他的研究中,这一增长是在其中讨论三维搜索的过程。在多媒体内容的情况下,在提供质量较差的匹配的工作中进行检索。但是最重要的是,Marvel是互联网用户仍然缺乏的最新、更智能的可能性。因此,本文的范围是为一个基于内容的搜索引擎提供一个实现方法,该方法是由IBM搜索个性化的基于web的多媒体搜索引擎于2004年在美国的Java中心开发的试图增加检索编程语言。然而,所有采用的方法都有创新的特性,同时保证了静态和本地访问只对系统数据库的快速响应和更好的搜索结果。作为多媒体搜索引擎的组成部分,前面提到的工作重点是如何实现关键的算法和算法,以实现高效的基于内容的检索,而不是关于实现大功能的实际问题。多媒体搜索引擎在网上。到目前为止,分布式1的几种不同技术。介绍了多媒体内容的搜索方法。
外部链接,分析引用页面,矿业的信息在网络上迅速增长在媒体文本信息文件,并利用元数据和新用户的数量也是没有经验的艺术使用都柏林核心元数据模型或MPEG-7网络研究。估计有1-2个exa字节(数百万个标准)。每年都有新的信息被创造出来,这篇论文的重点是描述一个多媒体搜索网络。这一庞大的信息量预计将在接下来的两年里将现有搜索引擎的功能增加10倍。通过依靠关键字匹配算法和机制的创新的自动搜索引擎来提高他们的功能。系统的架构和互连的情况,但也更糟,就多媒体内容而言。最主要的解释是如何在Java流行的搜索引擎谷歌[1]中实现算法,只依赖于关键字代码。该系统名为PIDALION,它运行于搜索图像,不包含任何信息窗口环境,而JavaServer页面(JSP)则用于语义内容。采用基于内容的图像检索系统和Java Servlets技术来确保(CBIR)解决这一问题。许多CBIR系统具有系统的互操作性和动态特性。最近在文献中提出并实施。系统的数据库运行在SQL Server 2000上。的一个关键的例子包括QBIC系统[2],在色彩的特点提出利用搜索引擎提供信息,PicToSeek系统[3],http:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934fly个性化检索服务:用户PIDALION结合颜色和形状不变的特性来执行与所有web用户可以分享他们的个人内容或图像检索和活力的框架内,允许用户组,以及保持个人手动调节提取档案的重要性,他们的偏好存储的地方。个性化可以通过创建社会团体和使用动态关联反馈机制来实现,它可以根据当前用户的喜好调整系统的性能。
本文组织如下:第2节介绍了系统的体系结构,简要说明了每个主要组件的作用。3 – 7介绍了部分的体系结构功能和各子系统的关键功能,负责定位创新问题和索引网址的内容。多媒体爬行子系统的体系结构分析主要涉及到检测新网页的问题,并将相关信息存储在系统的数据库中。在谷歌中,web爬行由几个分布式爬虫进行。URL服务器发送给爬虫列表的URL被获取。获取的web页面随后被发送到组件。关键算法以伪代码的形式描述。最后,对本文所涉及的问题进行了总结,并提出了今后的发展方向。
系统概述
- 子系统之间的互连
本文所述的平台包括以下子系统:
索引多媒体对多媒体爬行子系统内容的更新和处理,在
http://www.1mpi.com/doc/72a631f1a32ce26f74dc934fe是索引过程中的作用
多媒体内容的元数据根据多媒体元数据子系统提取MPEG-7描述符这种方式实现互操作性。
负责扫描数据库的多媒体检索和显示子系统,这是符合特定标准的内容,并将其转发到接口子系统。
用户和系统之间的通信,接口子系统,使交互能够提供检索内容的功能投射,并允许复杂查询的组成。
存储大量元数据和多媒体数据库子系统的必要性,包括缩略图、用户配置文件和首选项。图1中描述了上述子系统相互作用和相互协作的方式。
多媒体爬行子系统
服务器whttp:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934fhich压缩并将它们存储到一个存储库[13]。在PIDALION的框架中,多媒体爬行通过Java套接字实现,该套接字可以传输web页面和多媒体内容。图2展示了多媒体爬行子系统的架构和功能。正如所观察到的,有两种不同的应用场景:Web服务器的内容索引和家庭个人计算机的内容索引。
图2所示。多媒体爬行子系统的架构。
1 web服务器的内容索引
来自web的索引服务关注的是在网络上分布和可用的多媒体信息。根据体系结构的建议,一旦一个新的web页面被检测并注册,它就会到达多媒体爬行子系统来访问和获取位于那里的内容。任务http:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934fs执行的系统守护进程一旦被找到新的多媒体内容,其中包括更具体地扫描在数据库中所有相关记录,定义在后者的不是以前访问的通过套接字提取必要的内容,后者以适当的形式存储在数据库中。这个过程通过下面几行中的伪代码来描述。
用于未检查位置的数据库(查找未检查的位置)
Java套接字和下载网页解析网页:
制作一张图片链接列表。
列出与其他网页的链接。
(列表有更多图片链接)
Java套接字和下载图像处理(和存储)图像更新系统数据库。
数据库(设置web页面# 198;检查)
web页面链接到数据库作为未检查的位置。
2内容索引http://www.1mpi.com/doc/72a631f1a32ce26f74dc934ffrom家用电脑——社会群体的场景
这种情况下,多媒体内容在任何时候都不是在线的,而是位于用户家里的个人电脑中。这一任务与互联网用户对搜索引擎的利用有关,主要是通过在构成查询的框架内通过系统的接口,从多媒体内容中提取元数据。当然,在这种情况下,不需要存储元数据,而是要将其转发给将要执行搜索的检索和显示子系统。
3索引过程
以图像为例,提取两种数据,这种索引方法在社会群体中非常方便,这构成了一个有趣的web应用程序,因为它允许用户在朋友和团体之间共享多媒体内容。内容索引完成在这种情况下,通过使用一个http://www.1mpi.com/doc/72a631f1a32ce26f74dc934fJava应用程序,使家庭用户扫描目录在他们的个人电脑和个人多媒体内容上传至系统服务器。一旦用户下载并运行应用程序,就会提示他指定远程目录,其中多媒体内容将被索引。然后将后者自动定位,发送到系统服务器,处理和存储。为此创建了一个个性化的多媒体索引。
多媒体元数据子系统
该子系统的功能主要与从web或用户检索的多媒体内容的元数据提取有关。多媒体元数据提取模块在每次新的多媒体内容被识别时被激活。其次,这个过程在每次用户执行查询时发生。多媒体元数据编码的MPEG-7标准来确保互操作性在不同类型的http:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934fed内容。
1元数据提取
随着图像处理和视觉描述符的提取,一个新的图像对象开始创建。通过创建PixelGrabber对象和调用grabPixels()方法获得像素,该方法提供图像的宽度和高度。一旦获得了像素,就会应用一个掩码来隔离R、G和B值。最终接收到每个像素的8个字节。然后,将提取的像素的RGB值转换为HSV值,根据该值构造图像直方图。由于需要图像大小的完全独立,所以直方图的值是标准化的,与原始图像中像素的总数相分离。
2查询流程
:图像元数据和图像缩略图。在视频文件的情况下, 首先关键帧提取,支持元数据的过程在http: //www.1mpi.com/doc/72a631f1a32ce26f74dc934fion,每一帧重复上面操作,因此被视为一个独立的形象。更具体地说,基于视频摘要算法,一个视频处理器被激活来分析视频内容并提取适当的关键帧。这个算法的选择是由于a)它是非常快的(实时处理)和b)不需要事先知道要提取的关键帧的数量(关键帧的数量根据视频内容自动估计)。视频处理器是使用()Java Media Framework (JMF) API实现的。首先,创建一个媒体定位器,以及作为播放器来播放媒体的处理器。视频索引器使用“传递”访问单个视频帧。插入到数据流路径中的编解码器。当数据通过这个编解码器时,将为每个视频数据帧调用回调。Durinhttp:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934fg处理器的配置状态,两个解码器,PreAccessCodec PostAccessCodec,设置在视频跟踪。这些编解码器用于访问媒体文件的单个视频帧。
4类型的元数据
建议的搜索引擎采用MPEG-7标准的颜色和结构的视觉描述符。更具体地说,就颜色信息而言,可伸缩的颜色描述符(SCD)和主色描述符(DCD)被采用,而对于纹理信息,则使用同质和非均质结构描述符。其他类型的元数据,如filetype、类别和文本信息,用于进一步提高多媒体检索的精度。此外,该系统还使用元数据来维护社会群体和个性化索引。多媒体主题类别确定手动在这个搜索引擎的框架以减少错误的数量categhttp:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934forizations。在[15]中提出了一种更复杂的方法,在这里,语义表示形成了不同的抽象层次,用于创建层次结构的组。MARVEL[11]也支持基于模式的自动注释。
。检索和显示子系统。
检索和显示子系统负责访问数据库,在数据库中执行复杂的查询和文件最终被认为是匹配的,只有在遇到类似于原型的一个框架时才会被考虑。场景2和3从案例1和案例4的组合中得到了明显的结果。
最佳匹配给定搜索条件的注册,以及检索结果的组织和表示。
1。检索功能
注册搜索条件相匹配的要点是检索和显示子系统http:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934forresponding缩略图,组织他们的投影和状态给用户。检索过程更为复杂,因此需要进一步分析,当用户提供多个搜索条件时。处理多个搜索条件的方法是检测满足给定条件的每一组的注册组,然后找到它们的部分,从而检测满足所有条件的注册。这种方法虽然是最低效的策略,因为需要大量的时间,因此系统的效率大大降低。因此,多个搜索条件被合并到复杂的查询中,这些查询是由一个层次结构组成的。这种结构范围从最容易检查的标准,也就是要求更少的计算负载(底部)到最复杂和耗时(顶部)的标准。因此,http:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934f纹理和颜色直方图标准层次结构的顶部,因为每个注册可能符合这些标准,系统三个直方图向量必须检查每一个创作十值,这使得共有三十参数为每个注册。简单地说,这种检索方法可以使用易于检查的标准来拒绝尽可能多的注册,这样最复杂的就只能在有限的注册组中应用了。图3说明了搜索条件的层次结构。
目前只分析了最简单的搜索场景,包括提交图像和搜索图像内容注册。然而,PIDALION也提供了搜索视频文件的可能性,甚至可以将视频作为一个原型,用于检索图像或其他视频文件。所以在这一点上,很明显,有最后http://www.1mpi.com/doc/72a631f1a32ce26f74dc934ffour不同可能的搜索模式:1。提交图像和搜索图像2。提交图像和搜索视频3。提交视频和搜索图片4。提交视频和搜索视频。
对视频文件的查询更加复杂。当第四个场景发生时,用户上传的视频文件被分割成帧,每个帧被当作独立的图像处理。视频的注册。
2显示功能
对检索到的内容启用非线性访问的框架,以便减少用户所需的访问时间,后者是由8个组组织的,每个组由一组特定的代数关系决定,其中包含主色或直方图引用值。这些引用值占主导地位的颜色或直方图的价值观是用户提交的文件(如实例查询),http://www.1mpi.com/doc/72a631f1a32ce26f74dc934for的平均值计算检索结果的简单查询。检索到的内容的最终投影只包含上述每个组中的一个元素。它可以链接到其他的结果,形成一个层次结构,使用户可以浏览他感兴趣的内容。检索内容的非线性投射是PIDALION最重要和创新的特性之一,因为几乎所有的当前搜索引擎都采用了串行投影的替代方法。
接口子系统
系统的接口是这样设计的,以便在不需要用户具有特定的功能或知识的情况下,可以轻松地在多种可能性和服务之间进行导航。用户界面构成一个动态变化的环境中,因此它已经实现了使用JSP(Java Server Pagehttp:/ /www.1mpi.com/doc/72a631f1a32ce26f74dc934fs)和Java servlet技术,通过Java代码启用动态html页面的生产。其中,接口子系统的主要功能包括:
多媒体内容声明
查询和检索结果的组成
系统的接口与检索和显示子系统交互,并呈现检索结果。
按照后者提供的投影方案。PIDALION的另一个创新特性是评估检索结果的可能性。通过在每个检索到的注册下面找到对应的复选框,用户可以提供系统反馈,以获得对他更有吸引力或更感兴趣的结果类型。
浏览多媒体内容的远程IP地址这个服务提供用户能够访问,而不是存储颜色直方图是在http:/ /www.1mpi.com/do
全文共10064字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[15799],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。