Pairwise FastText Classifier for Entity Disambiguation
Cheng Yua,b, Bing Chub, Rohit Ramb, James Aichingerb, Lizhen Qub,c, Hanna Suominenb,c a Project Cleopatra, Canberra, Australia
b The Australian National University
c DATA 61, Australia
{u5470909,u5568718,u5016706,
Hanna.Suominen}@anu.edu.au Lizhen.Qu@data61.csiro.au
Abstract
For the Australasian Language Technology Association (ALTA) 2016 Shared Task, we devised Pairwise FastText Classifier (PFC), an efficient embedding-based text classifier, and used it for entity disambiguation. Com- pared with a few baseline algorithms, PFC achieved a higher F1 score at 0.72 (under the team name BCJR). To generalise the model, we also created a method to bootstrap the training set deterministically without human labelling and at no financial cost. By releasing PFC and the dataset augmentation software to the public1, we hope to invite more collabora- tion.
Introduction
The goal of the ALTA 2016 Shared Task was to disambiguate two person or organisation entities (Chisholm et al., 2016). The real-world motiva- tion for the Task includes gathering information about potential clients, and law enforcement.
We designed a Pairwise FastText Classifier (PFC) to disambiguate the entities (Chisholm et al., 2016). The major source of inspiration for PFC came from FastText 2 algorithm which achieved quick and accurate text classification (Joulin et al., 2016). We also devised a method to augment our training examples deterministically, and released all source code to the public.
The rest of the paper will start with PFC and a mixture model based on PFC, and proceeds to pre- sent our solution to augment the labelled dataset
1 All source code can be downloaded from:
https://github.com/projectcleopatra/PFC
deterministically. Then we will evaluate PFCrsquo;s performance against a few baseline methods, in- cluding SVC3 with hand-crafted text features. Fi- nally, we will discuss ways to improve disambig- uation performance using PFC.
Pairwise Fast-Text Classifier (PFC)
Our Pairwise FastText Classifier is inspired by the FastText. Thus this section starts with a brief description of FastText, and proceeds to demon- strate PFC.
FastText
FastText maps each vocabulary to a real-valued vector, with unknown words having a special vo- cabulary ID. A document can be represented as the average of all these vectors. Then FastText will train a maximum entropy multi-class classi- fier on the vectors and the output labels. Fast Text has been shown to train quickly and achieve pre- diction performance comparable to Recurrent Neural Network embedding model for text classi- fication (Joulin et al., 2016).
PFC
PFC is similar to FastText except that PFC takes two inputs in the form of a list of vocabulary IDs, because disambiguation requires two URL inputs. We specify that each of them is passed into the same embedding matrix. If each entity is repre- sented by a d dimensional vector, then we can concatenate them, and represent the two entities
2 The original paper of FastText used the typography
fastText
3 SVC: Support vector classification
Cheng Yu, Bing Chu, Rohit Ram, James Aichinger, Lizhen Qu and Hanna Suominen. 2016. Pairwise FastText Classifier for Entity Disambiguation. In Proceedings of Australasian Language Technology Association Workshop, pages 175minus;179.
by a 2d dimensional vector. Then we train a max- imum entropy classifier based on the concatenated vector. The diagram of the model is in Figure 1.
Figure 1: PFC model. W1 and W2 are trainable weights.
The PFC Mixture Model
The previous section introduces word-embed- ding-based PFC. In order to improve disambigua- tion performance, we built a mixture model based on various PFC sub-models: Besides word-em- bedding-based PFC, we also trained character- embedding-based PFC, which includes one uni- character PFC, and one bi-character PFC. In the following subsections, we will first briefly explain character-embedding-based PFC, and then show the Mixture model.
Character-Embedding-Based PFCs
Character-embedding-based PFC models typi- cally have fewer parameters than word-embed- ding-based PFC, and thus reducing the probability of overfitting.
Uni-character embedding maps each character in the URL and search engine snippet into a 13- dimensional vector, take the average of an input document, concatenate the two documents, and then train a maximum entropy classification on top of the concatenated vectors.
Bi-character embedding model has a moving window of two characters and mapped every such two characters into a 16-dimensional vector.
Our implementation of the character-embed- ding based PFC model includes only lowercase English letters and space. After converting all let- ters to lowercase, other characters are simply skipped and ignored.
Mixing PFC Sub-models
The mixture model has two phases. In phase one, we train each sub-model independently. In phase 2, we train a simple binary classifier based on the probability output of each individual PFC. The di- agram of the PFC mixture model is shown in Fig- ure 2.
4 In the Shared Task, if a pair of URL entities refer to differ- ent persons or organisations, the pair belongs to the negative
Figure 2: The PFC Mixture Model.
Augmenting More Training Examples Deterministicall
剩余内容已隐藏,支付完成后下载完整资料
用于实体消除歧义的成对快速文本分类器
ChengYua,b,BingChub,RohitRamb,JamAichingerb,LizhenQub,c,HannaSuominenb,c a Project Cleopatra, Canberra, Australia
b The Australian National University
c DATA 61, Australia
{ u5470909,u5568718 u5016706,
Hanna.Suominen } @anu.edu.au Lizhen.Qu@data61.csiro.au
摘要:对于Australasian Language Technology Association (ALTA) 2016共享任务,我们设计了Pairwise FastText Classifier (PFC),这是一种高效的嵌入式文本分类器,用于实体消除歧义。通过一些基线算法,PFC在0.72(在团队名称BCJR下)获得了更高的F1分数。为了推广这个模型,我们还创建了一个方法来引导训练集的确定性,不需要人工标记,也不需要任何财务成本。通过向公众发布PFC和数据增强软件。1我们希望能邀请更多的合作伙伴。
1介绍
ALTA 2016共享任务的目标是消除两个人或组织实体的歧义(Chisholm et al., 2016)。这个任务的真实动机包括收集潜在客户的信息和执法。
我们设计了一个Pairwise快速文本分类器(PFC)来消除实体的歧义(Chisholm et al., 2016)。PFC的主要灵感来源来自FastText。 2快速准确的文本分类算法(Joulin et al., 2016)。我们还设计了一种方法来确定我们的训练实例,并向公众发布所有的源代码。
本文的其余部分将从PFC和基于PFC的混合模型开始,并将所得的结果发送给我们的解决方案,以增加被标记的数据集确定性。然后我们将对PFC的性能进行评估,并对一些基线方法进行评估。3 用手工制作的文本功能。在此基础上,我们将讨论如何利用PFC技术来提高其性能。
2成对快速文本分类器(PFC)
我们的快速文本分类器是受FastText的启发。因此,本节首先简要描述FastText,并将所得的内容介绍给了demon- PFC。
2.1Fasttext
FastText将每个词汇表映射到一个实值向量,用一个特殊的vo- cabulary ID来表示未知的单词。一个文档可以表示为所有这些向量的平均值。然后,FastText将在矢量和输出标签上训练一个最大熵的多级分类器。快速文本已被证明能够快速训练,并达到与递归神经网络嵌入模型(Joulin et al., 2016)相比较的预测性能。
2.2PFC
PFC与FastText类似,除了PFC以词汇表的列表形式输入两个输入,因为消除歧义需要两个URL输入。我们指定它们每一个都被传递到同一个嵌入矩阵中。如果每个实体都被一个d维向量表示,那么我们可以将它们连接起来,并表示两个实体。
通过二维向量。然后对基于串联向量的max- imum熵分类器进行了训练。模型的图如图1所示。
图1:PFC模型。W1和W2是可训练的量。
2.3PFC混合模型
前一节介绍word-embed——ding-based曼宁为了提高disambigua,性能,我们构建了一个基于各种PFC子模型:混合模型除了word-em bedding-based PFC,我们也训练有素的角色——embedding-based PFC,其中包括一个uni -字符PFC,和一个bi-character曼宁在接下来的部分,我们将首先简要解释character-embedding-based PFC,然后显示混合模型。
2.3.1Character-Embedding-Based全氟化物
基于字符嵌入的PFC模型比基于嵌入的PFC具有更少的参数,从而降低了拟合的概率。单字符嵌入将URL和搜索引擎片段中的每个字符映射到一个13维向量中,取输入文档的平均值,将两个文档连接起来,然后在连接的向量上训练最大熵分类。
双字符嵌入模型有两个字符的移动窗口,并将每个这样的两个字符映射成一个16维的向量。基于字符嵌入的PFC模型的实现只包括小写英文字母和空格。在将所有的let- ter转换为小写后,其他字符被简单地跳过和忽略。
2.3.2混合PFC子模型
混合模型有两个阶段。在第一阶段,我们单独训练每个子模型。在第二阶段,我们根据每一个PFC的概率输出训练一个简单的二元分类器,PFC混合模型的di- agram显示在图2中。
图2:PFC混合模型。
3确定更多的样本
嵌入模型往往有大量的参数。我们的单词嵌入矩阵有超过3700行,因此它是自然的大脑风暴方法增加训练集以防止过度拟合。我们创建了一种方法,可以在不需要人工标记的情况下确定额外的训练样本,并且数据可以是ac- quired,不需要额外的成本。
3.1为消极类获得训练范例
为了获取指向不同的peo- ple的URL对,我们编写了一个访问LinkedIn的抓取机器人,并在一个名为“与person相似的人”的章节中获取超链接,在这里,LinkedIn推荐与我们正在浏览的当前配置文件相似的专业人员。LinkedIn重新定义了我们在一个月内可以浏览的个人资料的数量,除非用户是一个高级用户,所以我们将我们的LinkedIn账户升级为抓取目的。我们使用了培训样本中提供给我们的LinkedIn url,并获取了类似的LinkedIn个人资料,结果是大约850个档案,其中一些LinkedIn网址已经不再更新。
3.2为正类获得训练样本
为了获得属于同一个人的不同社交媒体档案的训练样本,我们使用了about.me的例子。有关。我是一个平台,人们可以在这里创建个人主页,展示他们的专业投资组合和各种社交媒体网站的链接。我们写了一个抓取机器人。我/发现,网站展示他们的用户,点击打开。每个用户都获得他们的社交媒体链接,并随机选择两个作为训练示例。例如,对于一个拥有5个社交媒体支持文件的人,包括Facebook、Twitter、LinkedIn、Pin- terest和谷歌 ,机器人可以生成(5,2)= 10个训练样本。
4实验装置
利用第3节中所述的机构所提供的训练数据和使用方法获得的数据,我们对PFC和PFC混合的perfor- mance和一些基线模型进行了评估。
4.1数据集
该组织准备了200个标记成对的训练样本和200个未标记的测试样本(Hachey, 2016)。所有基线方法和PFC方法都使用原始的200个URL对进行训练。唯一的例外是“PFC与增强数据集”,它使用前一节中的方法获取807个负类URL对,以及891个正类URL对。
4.2预处理
PFC的文本内容来自于由组织者提供的搜索引擎片段文件,以及由培训示例提供的url所提供的文本。测试集中的未知单词由一个特殊符号表示。
4.3基线
我们选择一些基线模型的原因是,对于URL实体的消除歧义,没有黄金标准的基线模型。基线模型解释如下。
单词嵌入与预先训练的Vec- tor:训练语料库谷歌来自新闻文章(Mikolov et al., 2013)。对于每个URL实体,我们使用从谷歌中使用预先训练的单词嵌入向量来计算搜索结果片段文本的平均向量。生词都被忽略了。然后我们将这些向量串联起来,在它上面训练一个最大熵分类器。
SVC具有手工选择的文本特征:我们的支持向量分类器是建立在手工选择的文本特征之上的。对于每一对url,我们手动选择以下文本特征。在Appen- dix-A中可以使用这些特性。
LSTM字嵌入:我们将每个文档标记顺序地使用word嵌入到LSTM层中,其中有50个LSTM单元(Brownlee, 2016) (Goodfellow et al., 2016), con- catenated这两个输出向量,并在上面训练了一个最大熵分类器。为了重新演绎过拟合,我们增加了辍学率,将辍学参数设置为0.2 (Zaremba, Sutskever, amp; Vinyals, 2014)。
神经张量网络:受Socher等人的启发,通过将一组以向量形式表示成张量的文档传递给一个张量,我们建立了基于该体系结构的关系分类器(Socher et al., 2013)。文档向量是由预先训练的谷歌嵌入词向量构成的。
5实验结果与讨论
实验结果与实验结果基本一致。
方法 |
F1 公共 |
F1 Pri - vate |
F1 - tal5 |
|
PFC - 基于 |
PFC Word-Embed - 丁 |
0.75 |
0.64 |
0.69 |
PFC混合物 模型 |
0.74 |
0.71 |
0.72 |
|
PFC与增强 数据集 |
0.65 |
0.69 |
0.67 |
|
- - - 行 |
神经张量 网络 |
0.67 |
0.6 |
0.64 |
SVC使用人工 特性 |
0.75 |
0.69 |
0.72 |
|
LSTM词- - - - - - 嵌入 |
0.51 |
0.53 |
0.52 |
表1:结果比较。
5.1增强数据集问题
添加更多的训练数据似乎会影响共享任务的F1评分。然而,如果我们允许新获得的训练样本成为验证集的一部分,那么验证集的精确度可以达到0.92。由于时间的限制,我们只能获得1700个训练样本,在每一个美食中都有大约相等的数字。是否添加更多的训练数据可以证明消除歧义性能有待于实验。
5.2改善PFC
如果我们使用相似计分函数,那么PFC的性能可能会提高。??(????%,??在哪一个对角matrix.二进制分类器成为??=??(????#,??%),而原PFC分类器??=??(??([??#,??%])。??和??都可学的weights.
#
5.3比较PFC与基线SVC
在我们的实验中,PFC混合模型达到了最佳性能,与SVC相比具有手工选择的特点。单字符模型本身容易适应,因为列车数据本身不能单独由模型分割。PFC是健壮的,因为它允许自动学习文本特性。
6结论
我们引入了Pairwise FastText分类器来消除URL实体的歧义。它使用基于嵌入向量表示的文本,可以快速的训练,并且在我们的实验中比大多数的al- ternative基线模型表现更好。PFC有潜力推广到广泛的消歧任务。为了实现对模型的应用,我们创建了一个方法来确定更多的训练示例,而不需要手工标记。我们希望通过将所有这些信息发布给公众,希望在消除歧义方面取得持续的进展,这可以应用于iden-验证、反恐和在线一般知识基础的创建。
附录A
附录A包括为SVC基线模型手工选择的文本特征。
A.1URL的特性
ID Feature Name |
lt;
剩余内容已隐藏,支付完成后下载完整资料 资料编号:[22832],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。