机器学习的文本自动分类 法布里奇奥 塞巴斯蒂亚尼外文翻译资料

 2022-11-22 11:31:36

英语原文共 47 页,剩余内容已隐藏,支付完成后下载完整资料


机器学习的文本自动分类

法布里奇奥 塞巴斯蒂亚尼

国家研究委员会,意大利

文本自动分门别类(或分类)到预定义的类别见证了十年来数字化的文件的利用性的增加和组织它们的飞速的发展。在研究领域,解决这一问题的主要方法是基于机器学习技术:一般的自动归纳的过程通过学习,从一组预分类文件的特征生成分类。这种分类方法比起知识工程方法的优势(包括该领域专家的手动定义分类器)是有一个非常好的效果,很大程度上节省了劳动力并且快速直接的给出不同分类范围。本论文主要讨论的文本分类方法范例都属于机器学习的范畴。我们将分别详细讨论三个的问题:文档表示、分类建设和分类评价。

分类和主要描述:H.3.1[信息存储和检索]:内容分析和索引,索引方法;

H.3.3[信息存储和检索]:信息搜索和检索,信息过滤;

H.3.4[信息存储和检索]:系统和软件的性能评测(效率和效益);

I.2.6[人工智能]:学习感应

概述:算法,实验,理论

关键词和短语:机器学习,文本分类,文本分类

2.文本分类

2.1.文本分类的定义

文本分类是给每一对分配一个布尔值,其中表示一个文件,表示一组预分类集。的值分配给表示文件在下,的值表示文件不在下。正式来讲,任务是通过一个叫做分类器(又名规则,或者假设,模型)的函数:近似未知的目标函数,使得和“尽可能一致”。如何准确定义和估算这种巧合将在7.1节中讨论。现在开始,我们将假设:

——类别只是象征的标签,没有额外的其它含义。

——没有外源性知识(即,由外部源提供用于分类目的的数据)是可用的;因此,分类必须在内源性知识的基础上完成(即,从文档中提取知识)。这意味着,例如出版日期,文档类型,出版来源等等元数据,都是不可用的。

我们将讨论TC方法是完全通用的,而且不受可用性或昂贵的特殊资源的限制。当然,在合法的去使用可获得的或有开发价值的任何信息源的操作情况下,这些假设是不需要验证的。仅仅依靠内源知识文档的分类,是以它的语义为基础的,并且理解的语义也是具有主观性的,所以,在类别中的文件不能被确切的确定是该类的。以索引器间不一致的现象举例证明:当两个专家决定是否将文档分类到类别,他们可能持不同意见,实际上发生这类事情的频率相对高。克林顿参加迪兹·吉莱斯皮的葬礼新闻文章可能分类归为政治,或在爵士,或都是,甚至两者都不是,这取决于专家的主观判断。

2.2.单类别和多类别文本分类

根据应用,任务有不同的要求。例如,我们可能需要的是,给定的整数的元素(或或)被分配给每个。一个类别分配到每个的情况通常被称为单类别(又名非重叠的类别), 而从0到很多类别可能分配给相同的被称为多类别(又名重叠的类别)。单类别的一种特殊情况是二进制,其中每个必须被分配到类别或它的互补。

从理论的角度来看,二进制情况(单类别情况)比多类别更普遍,因为二进制分类的算法也可以用于多类别分类: 只需要变换多类别分类问题下为,其中的二元分类独立问题。这类别的需求是随机相互独立的,即,对于任何,,的值不依赖于的值,反之亦然;通常假定是这种情况(应用中不是这种情况在第3.5节中讨论)。反之不成立:用于多类别分类的算法不能用于二进制或单类别分类。事实上,给文档进行分类,(i)分类器会把的类别给,但是它可能不会确切的从他们当中选择“最合适”的类别;或(ii)分类器会把任何类别给,它可能不能确切的从中选择一个“不当”类别。

除非特殊提到,否则在文本的其余部分,我们将处理二进制的情况。有各种各样的原因:

——二进制案例因重要的应用所以本身是重要的,包括过滤(参见3.3节),包括二元分类问题(例如,在决定是否为爵士与否)。在,存在很多特征不均匀的类别(例如,很少的文件是关于爵士)和不均匀的特点类别 (例如,什么是对爵士乐的特点)的二元分类问题。

——解决二进制情况也意味着解决多类别的情况,这也代表重要的包括布尔系统(参见3.1节)自动索引的TC应用。

——大多数的TC文献是二进制表示的。

——大多数二进制分类的技术只是特殊情况下的单类别的情况下的现有技术,并比这些更容易说明。

这最终意味着我们将视分类为存在对给定类别

的文件进行独立分类的问题。的分类器是一个近似未知的目标函数的函数。

2.3以类别为中心与以文本为中心的分类

有两种不同的方式使用文本分类器。给定,我们可能想找出它应该提交的所有(以文本为中心的分类-DPC);另外,给定,我们可能希望找到应该被提交它下面的所有(以类别为中心的分类-CPC)。这种区别比概念更加直观,但值得注意,集和可能不是从一开始就全部可用。其他方式的分类器的构造与分类建设方法的选择是相关的。

可用于在不同的时刻的可用文件,例如,在邮件过滤。反而适合当(i)一个新的类别添加到现有的一些文件已经分类到的集。(ii)下的这些文件考虑需要重新分类。是更常用的比起,因为前者的情况比后者更常见。

尽管一些特殊的技术适用于一种风格,而不是其他(如第6.1节中讨论的比例阈值方法仅适用于),这更多的是例外而不是规则:大多数的技术,我们将讨论允许在任一模式下工作的分类器的构造。

2.4“硬”分类与排序分类

一个完整的自动化的任务需要为每对决定或,这个过程的部分自动化有不同的要求。

例如,给定一个系统对有自己的简单的估计,是否适合排在,而不采取它们中的任何“硬”的决定。这样的排名顺序对负责最终的分类决策的专家将有很大的帮助,因为他可以在列表的顶部限制选择的类别(或类别),而不是检查整个集。另外,给定,系统会根据他们简单的的估计是否适合排在文档组;对应地,对于的分类,专家会检查排名靠前的文件而不是整个文档集。这两种方式有时被称为TC类排名和TC文档排名,明显的分别与DPC和CPC对应。

半自动,在“交互”的分类系统是极有用的,特别是在一个完全自动化的系统的有效性预期可以比人类专家的预期明显低的应用程序。当训练数据的质量(见第4节)低的情况下,或当训练文件不能被信任是有代表性的样本的看不见的文件时,一个完全自动化的分类结果不能被完全信任。

在本文的其余部分,除非明确提到,我们将处理“硬”分类;然而,我们将讨论的许多算法本身是TC排名(在6.1节中更多这方面的细节)。

3 .文本分类的应用

TC要追溯到马龙的概率文本分类的开创工作。自那时以来,它已被用于许多不同的应用,我们在这里简要回顾一下最重要的部分。这里的不同类别的应用程序之间的边界是模糊的,被认为是特殊情况。其他应用程序,我们不明确地讨论通过语篇标题的分析,对不明或有争议的作者的文学文本作者识别,对未知语言文本的语言识别,文本类型的自动识别,并自动对征文评分的语音识别和TC,多媒体文件分类结合的语音分类。

3.1 布尔信息检索系统的自动检索

产生的最早研究的应用程序是基于受控字典的系统自动文档检索,这是最突出的布尔系统的例子。在这些后的每一个文件被分配一个或多个关键字或关键短语描述其内容,这些关键字和关键短语属于一个有限集合称为控制字典,通常由专题分级词库组成(例如,美国航空航天局的航天学科,或医学网叙)。通常情况下,这种分配是由训练有素的人员进行索引,因此是一个昂贵的活动。

如果在控制词汇中的条目被视为类,文本索引是的一个实例,并且因此,可以通过在本文中的自动描述技术来解决。回顾2.2节,对于给定的,这个应用程序通常按要求将关键词的分配给每个文档。以文本为中心的可能是最好的选择,目的在于新的文档成为可利用的时候他们可以被分类。索引文件的各种文本的分类器在文献中已有描述;参见,例如,Fuhr and Knorz [1984],Robertson and Harding [1984],和Tzeras and Hartmann [1993]。

有控制的字典自动标引是与自动元数据生成密切相关的。在数字图书馆,通常对描述它们在各种方面的元数据标记文档感兴趣(例如,创建日期,文件类型或格式,可用性等)。元数据中的某些是主题,也就是说,它的作用是通过书目代码,关键词或关键短语描述文档的语义。该元数据的生成因此被视为文件索引与控制字典,并且通过TC技术手段解决的问题。

3.2 文件组织

受控词汇的索引是组织文档库的一般情况。在一般情况下,许多问题与文件组织和归档有关,用TC技术解决以个人的组织或团体文件结构化为基础的情况。例如,在一家报纸的办公室里,在出版前,“分类”广告必须是,分类如交友,汽车销售,房地产等。应对高容量的分类广告的报纸将受益于选择最适合的类别指定广告的自动系统。其他可能的应用是为使搜索更容易的专利分类的组织,申请文件的自动归档(如政治,首页新闻,生活方式等),或会议文件的自动分组到会议。

3.3文本过滤

文本过滤是由信息生产者以异步方式分派给信息消费者一个数据流的活性。一个典型的例子是一个新闻源,其中生产者是一个新闻机构和消费者是报纸。在这种情况下,过滤系统应该阻止交付给消费者可能不感兴趣的文件(例如,在一个体育报的情况下,不涉及运动的所有的消息)。过滤可以被看作是单类别,即将收到的文件分类成两个不相交的相关的和不相关的类别中的情况。此外,过滤系统也可进一步把文件分为主题类别;在上面的例子中,关于运动的所有文章,应进一步根据他们处理这些运动分类,以便允许记者专业个人运动访问他们预期权益的稿件。同样,电子邮件过滤器可能被训练丢弃的“垃圾”邮件和非异常邮件进一步分为用户感兴趣的专题类别。过滤系统可安装在生产端,在这种情况下,它必须把路径文件给感兴趣的消费者,或在消费者端,在这种情况下,它必须阻止视为无趣的消费者文件的交付。在前者的情况下,系统建立并更新为每个消费者一个“简介”,而在后一种情况下(这是更常见的,并且我们将参照本节的其余部分)需要单个配置文件。

配置文件可以由用户最初指定,从而类似于固定的IR查询,并且系统通过由用户提供的反馈的信息的相关性或非关联性(隐或显式)进行更新。在TREC范畴,被称作自适应滤波,没有用户指定的配置的情况可被称为路由或间歇过滤,根据文件是否按增加方式的排序估计相关性,决定接受或拒绝。批量过滤之所以适用|C|=2的分类下的单类别TC;是因为后者是一个完全通用的TC任务,不过一些作者有点混乱,使用“过滤”代替更适当的术语“分类”。

在信息科学领域,文件过滤有一个传统可以追溯到上世纪60年代,通过不同程度的自动化的系统来解决和处理上面讨论的多种情况,它被称为信息或电流意识选择性传播。数字信息的可用性的爆炸已经推动了这样的系统,这是目前正在使用的环境,如建立个性化Web报纸,垃圾邮件拦截,和网络新闻选择的重要性。

通过信息技术ML过滤在文献中有广泛的讨论:如 Amati and Crestani [1999], Iyer et al [2000], Kim et al. [2000], Tauritz et al. [2000], 和Yu and Lam [1998]。

3.4.词义消歧

词义消歧()是一个模糊的(即,多义或同音异义)词语活动产生的结果,这个词出现的意义根据特殊的文本而定。例如,在英国,银行可能有2种不同的意思,如英国银行(金融机构)或河岸(水利工程神器)。因此,这是一个的工作来决定上周我从银行借了一些钱是否发生的检测。的许多应用是非常重要的,包括自然语言处理和索引文件是根据用词的感觉而不是用词来检索词。可以视为一个任务,我们把词的出现背景视为文档和词的意义来分类。很明显,在一个单类别的情况下,以文本为中心的通常是正确的选择。

是解决一般自然语言歧义的问题的一个范例,一个计算语言学中最重要的问题。其他的例子,这都可以通过TC技术进行系统讨论的线处理,是上下文敏感的拼写校正,介词短语附着、词性标注、文字选择在机器翻译;见Roth[ 1998 ]的介绍。

3.5.网页的分级分类

近年来,由于网络网站的普遍应用,在以流行的互联网门户网站的分级目录下,有可能自动对网页进行分类,最近很多人的对此感兴趣。当文档以这种方式进行编目,而不是发出一个查询给通用网络搜索引擎搜索者可能更容易对第一类别的层次结构中导航,然后限制她的搜索感兴趣的特定类别。

分类网页自动具有明显的优势,因为网络的足够大的子集,人工分类是不可行的。不像在前面的应用程序,通常情况下,每个类别必须由一组文件进行填充。的选择应使新类别被添加和过时的时候被删除。

相对于先前讨论的应用,网页自动分类具有两个基本特点:

(1)文件的超文本链接的性质:是一个丰富的信息源,因为它们可以被理解为说明链接页面的相关性链接页面。TC技术利用这种直觉在环境已经提出由Attardi et al. [1998], Chakrabarti et al.[1998b], Furnkranz [1999], and Oh et al. [2000]并且由Yang et al. [2002]通过实验比较。

(2)类别集的层级结构:例如,通过分解分类问题成若干较小的分类问题,每一个对应于一个内部节点的分支决策。利用这种直觉在TC环境技术已经被Dumais and Chen [2000], Chakraba

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[30262],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。