英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
从中文百科抽取知识库
摘要:语义网的立场是构建一个可以使机器理解网络上语义的“数据网”。开放数据链接(LOD)项目鼓励人们和机构在Web上发布以RDF格式组织的信息以推动语义网的发展。DBpedia在中的哦知识库中脱颖而出,成为现今英语界的数据连接中心。但是在中文领域现在还没有公开的与DBpedia链接的数据库。本文介绍了一种从百度百科、互动百科等中文百科中提取数据构建中文结构化数据库的方式。所提出的方式首先依据百科标签和信息框构建了一个本体,然后从百科中抽取实例。我们从互动百科抽取了19542个概念、2381个属性,根据本体提取了802593个实例,其中有62679个链接到了DBpedia。从百度中提取的本体包括299个概念,37种关系和4490种属性,1319703个实例中的84343个链接到了DBpedia。我们提供了RDF对和SPARQL的方式进行查询。我们构建的知识库不仅可以用来构建中文链接数据,还可以用于问答系统、语义搜索等大规模知识图谱的应用。
关键词:语义网,连接数据,本体,知识库
1.简介:
语义网是对现有万维网的扩展,其中的数据所具有的语义是准确定义好的,并且可以被计算机以某种形式理解(Berners-lee 1998;Shadbolt,Berners-Lee et al.2006)为了实现语义网的立场,W3C组织发起了开放数据连接(LOD)项目来鼓励个人和机构发布以RDF三元组形式组织的不同数据到网上。开放链接数据以一些Berners-Lee()等人提出的规则公布:1)使用URIs为实例命名;2)使用HTTP URI方便人们查阅这些数据;3)URI应该为人们提供有效的信息;4)数据中应该包含到其他实体的链接,这样就可以发现更多数据。LOD自从2007年成立以后经历了高速发展,截止2011年9月已经有295个数据库包含了310亿三元组。LOD数据已经被应用在了许多领域,如用于科学出版物的DBLP,用于社交网络的Myspace,用于经济领域的LinkedMDB和MusicBrainz。LOD还拥有一些基于上述专业知识图谱的跨领域知识库,如YAGO和FreeBase等。知识库通常集合了不同来源的数据,并定义了本体来描述不同信息的结构化数据。以DBpedia为例,它从维基百科抽取结构化数据,提供了来自地理信息,人类,公司、音乐等不同领域的大约12亿个三元组,由于这些数据库良好的定义了本体,DBpedia和YAGO已经在链接数据中起到了核心作用。这些数据库也被用在了音乐点评,信息抽取等应用领域
由于网络上有不同的语言在使用,语义网的多语言性十分显著,DBpedia目前提供德语、法语、日语等非英语版本,中文维基因为只包含35万条文章所以没有DBpedia的版本。所以LOD缺少中文数据库,DBpedia和YAGO中也没有中文本体,这些都影响了中文资源的开放链接。
在这篇论文汇总,我们提出了一个使用中文百科数据的大规模跨领域中文知识库,我们发的数据库使用中文文章作为输入加工后获得中文知识库。我们的主要贡献如下:
(1)我们提出了一种从百科标签和信息框中提取本体的方法,通过去除不合适的概念层次关系和包含文章数目太少的类,沃恩提取了概念和概念的层次关系,我们从文章中提取了普通属性,信息框属性和人物关系属性三种属性,领域和属性的值由相关的概念决定。
(2)我们从实例中依据提取出的本体抽取结构信息。依据百科中的文章标签将实例关联到对应概念,同时,这些实例也被根据百科链接连接到DBpedia。
(3)我们通过上述方法建立了一个机遇互动百科和百度百科的知识库。机遇互动百科的知识库包含52.404个概念,2381个属性和802593个实例。百度百科中提取的实例包含299个概念,5627个属性和1319703种实例,其中有84343个连接到了DBpadia。接下来的文章以以下形式组织:第二章介绍知识库基础知识,包括中文百科数据和符号定义第三章介绍本体抽取方法,第四章介绍实体抽取方法,第五章介绍建立的知识库结果,第六章总结了研究过程并展望了未来研究方向
2.说明及定义
本文提出了一种基于百科数据的中文知识图谱构建方法。本章首先介绍一些常用的中文百科数据然后呈现一些相关的定义。
2.1中文百科
现有的中文百科数据包括中文维基百科、百度百科和互动百科等。中文维基百科是2002年建立的,到2011年已经拥有39万词条,互动百科是2005年建立的,截止2011年12月已经拥有590万词条,百度百科创建于2006年,拥有超过四百万文章。这些百科都是师兄相似的工具编辑的所以也具有相似的结构。一篇文章描述一个百科话题,包含与此话题相关的内容,图一展示了一个互动百科的页面,页面通常包含五个部分:
(1)标题:每个条目拥有一个唯一的标题,标题位于页面的上方,标志着文章的话题
(2)摘要:文章的第一个段落通常是概括了整个文章,被称作文章的摘要
(3)描述:文章的描述是大段的文本纤细地描述了话题的细节
(4)链接:与网页间的链接类似,这里的链接是词条文章间的链接
(5)信息框:信息框提供了与文章相关的的一些结构化信息,它提供了键-值 对形式的数据
(6)分类标签:文章可能会包含一些标志文章分类的标签,同一篇文章可能包含多个标签
2.2相关定义:
这里我们展现一些关于本体和知识库的定义
定义1:百科知识库是一个由人们联合编写的文章集合,通常可以表示为三元组的形式:
A表示文章的集合,C表示标签分类,L表示W中的链接
正如我们在2.1中定义的,文章包含一些信息,对于一篇文章,可以表示为6元组的形式
表示标签,摘要、描述、链接、信息框、和标签系统
定义2:本体是关于公理的结构化定义,提供了对感兴趣领域的描述词语,本体可以被表示为4元组
C,P表示概念和属性,表示概念和属性的层次关系
定义3(本体属性)描述实例间关系的属性是关系属性,描述实例的属性叫数据属性
定义4(定义域和值域)在本题中,属性描述的领域是定义域,属性值的可能选择是值域
3.本体提取:
为了从百科数据中构建知识库,我们首先冲提取出的知识库中构建了本体模型,本体定义了概念和属性及其层次关系,本章展现了一个基于分类标签系统和信息框属性模板的本体构建方法。
3.1提取概念
本题中的概念定义了一组属于同一类并具有一些共同属性的实例,概念可以通过定义隶属关系进行层次管理。概念及其层次关系定义了本体的框架,这对提取到的信息的查询和分享十分有益。
在维基百科中,标签系统将相似的文章归类并具有父类和子标签,因此标签和本题中的概念极其相似,所以我们可以依靠概念和他们的关系构建本体。
但是,将百科数据分类系统转换为本体还是有一些问题需要解决。首先分类系统有一定的不一致性,一些标签的子标签同时也是他的父标签或者兄弟标签,这种情况在表三种展示,
“国家元首”的子类包含国家元首,造成了分类中的环。其次,如图三所示,同一标签可能有多个父标签。第三,有些标签过于专业,只包含少数文章,这些过于异化的标签无法表现实例的特性,因此不适合被提取。
为了解决以上问题,我们提出了一些解决方案:
(1)去除一些不合适的子类关系,枚举标签树中的所有标签,删除子标签到父标签间的联系,通过这种方法,去除了环并保留了其他关系
(2)只保留到根标签最近的父类关系,删除其他父类关系,通过这种方式确保只有通常的定义被存储。
(3)删除只具有少于两个实体的标签。
我们基于改善过的分类标签定义了概念和概念间的层次关系。对每一个标签我们都定义了一个概念并赋予了它唯一的标识符。我们通过链接前缀http://CKB.org/ontology/和名称来定义标识符名称。通过提取子类关系获得概念间的层次关系。如果一个概念对应的标签有子标签,则概念对应的子概念就对应这个子标签。所有定义的概念和层次关系都通过OWL语言记录,表四展示了互动百科的人物层次关系
3.2提取属性
属性用于描述实例与实例或实例与属性间的关系。属性可以被分为两种,描述实例与RDF标签和xml语义的数据属性和描述类与实例间的关系属性。我们定义了三种属性:普通属性、信息框属性和人物关系属性
(1)普通属性:
普通属性包括标签,摘要和url,他们都是数据型属性,这些属性描述实例的基本信息,标签属性描述实例的名称,摘要属性是文章的第一个段落,url属性提供了百科页面的url
(2)信息框属性:
信息框属性依据信息框中的参数定义,例如人物页面信息框中的姓名、年龄、籍贯等。为了定义属性的类型,首先要分析信息框中的参数。例如姓名属性可以被定义为数据属性,如果属性的值被连接到一个文章页面,则这个属性就是一个关系属性。大学页面的校长属性链接到一个人物页面,则这个属性是关系属性。
(3)人物关系属性
在互动页面中有些网页包含人物间关系,图五展示了姚明的人物关系,包括他的父亲,妻子,女儿等。我们提取了这些关系并以关系属性的形式存储。
每一个提取出的关系都被赋予了一个唯一的标识,对于每一个关系,我们也限定了其作用域和值域。对于通用属性,他们的定义域是顶层概念Thing 对于人物关系属性,因为他们的作用范围是人物,所以值域和定义域均为人物。信息框属性的定义域和值域来自于其出现的种类和其值的种类。我们提出了一些手段来确定信息框属性的值域和定义域。
a)
4.实例抽取
本章首先介绍基于百科数据的实例定义方法然后介绍如何将实例连接到DBpedia
4.1从百科文章抽取实例
当定义好一个本体后,百科中的文章被当做本体中的实例抽取,每个实例都被赋予一个URI。根据百科中的分类标签把概念标签赋予实例,这里有三种描述实例的属性。通用属性包括标题、摘要和URL,信息框属性包括信息框内的信息。
当我们从从信息框中提取关系属性时应该注意链接丢失的问题。很多应该有链接的属性值都缺少链接,例如在互动百科中的“清华大学”词条,校长一栏中有“顾秉林”,但是这个值没有连接到文章“顾秉林”,因此我们必须要找到这种丢失的连接。我们通过名称匹配来进行丢失链接的补全。值被和所有的百科文章标题进行比对,如果有完全匹配的就用链接替代字符串
4.2将实例与DBpedia链接
DBpedia是一个大规模英语结构化数据库,并且是Web语义数据的链接中转。为了使抽取到的连接信息连接到DBpedia,我们开发了一些连接方法。因为DBpedia是由维基百科抽取的,我们抽取了中英文维基百科链接数据。我们通过以下方式建立实体链接:
(1)对于一个实例,先找到中文维基对应的实例
(2)如果有中英文对照则找到英文百科页面URL
(3)在DBpedia中查询URL
(4)将中文百科页面与英文百科页面链接
5.抽取知识库
这章将分别介绍从百度百科、互动百科抽取出的信息并且介绍查询知识库的SPARQL终端
5.1互动知识库
我们编写了一个爬虫,爬虫从互动分类树的起点开始抓取,下载了分类树下的所有数据。我们下载了687000篇文章,虽然这些文章的数量相较于互动百科的总数量较小,但是质量比没抽到的高。这些文章包含了包括信息框、分类信息在内的丰富信息。表一展示了分类下的内容。
抽取到的本体包括19542个概念,2079个关系属性、302种数值属性。这里有13个顶层概念在互动百科:社会、地理、科学、人物、生活、文化、组织、经济、艺术、自然、技术、历史、体育。正如我们所示,顶层分类组织没有包含在互动标签系统,属于组织的分类出现在其他分类中。比如:经济组织属于经济,科研机构属于科学。因为组织是一个非常重要的概念,我们手动手动选出了相关的标签并且创建了组织这个类别。表2展示了每个顶层概念的相关概念、关系数量和层次结构。
基于提取出的本体,我们定义了802593个实例。这些事例呗不同的属性描述,共有5237520个RDF三元组。表3展示了每个顶级概念下的事例和三元组数目。这些实例中有62679个连接到了DBpedia。
5.2百度知识库
我们从百度下载了130万篇文章,表4展示了每个顶层概念下的文章数。我们发现百度的分类树和互动是一致的。提取出的本体包括1299个概念,39中关系属性,5590种数据属性,这里有12个顶层概念:社会、地理、科学、任务、文化、生活、基尼、艺术、自然、技术、历史、体育。表5展示了每个概念下的层次数、概念数和属性数。
与互动百科不同,每一个顶级概念下都有三个层次。除此以外,每一个百度百科的概念只有一个父概念,百度百科的分类树没有互动大。
基于这些提取出的本体,我们下载了1319703个实例。这些事例由4590144个RDF三元组描述,84343个实例被链接到了DBpedia。表6展示了每个顶层概念的实例数目和三元组数目,实例的数目和概念下的文章数目相同。
5.3用于查询知识库的SPARQL终端
提取出的知识库以RDF三元组形式存储。SPARQL被设置成查询知识库的形
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148568],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。