通过Deep Multimodal Fusion进行用户分析外文翻译资料

 2021-12-22 22:26:07

英语原文共 9 页

通过Deep Multimodal Fusion进行用户分析

udmf:通过深度多模式融合进行用户分析

建模多个数据源的主要目标是集成两个或多个数据/知识源,并创建单个表示,提供比任何单个数据源更准确的数据源描述。为了设计这样的框架,主要考虑因素之一是数据源集成发生的级别。有两种广为人知的策略,即早期方法和后期方法。数字1 概述深度神经网络架构中的早期和晚期方法。

图1:在深度神经网络架构中集成多个数据源的早期和后期方法。

早期方法是将数据源集成到特征层次上的策略。使用早期方法的主要优点之一是考虑了不同数据源和模式之间的相关性。不同模式之间的相关性表示不同的知识源与另一种模式之间的共同点。数据源之间的这些类型的关联可以在集成过程中提供额外的提示。但是,不同的数据源和模态并不一定相互关联。因此,除了使用数据源之间的依赖性之外,通常融合独立的模式以获得更好的决策也是很有用的。让我们考虑一下社交媒体中用户分析的情况。在这种情况下,诸如用户的帖子和图片之类的多种模态可以用作与平台交互的手段。它由于其特征之间缺乏直接对应关系,有时很难在特征层融合这些形态。建模多个数据源的另一种流行方法是后期方法,其中集成发生在决策级别。例如,线性加权组合是使用的最简单的决策(后期)集成技术。广泛使用的多数表决集合方法就是这种情况的一个特例。

通过在我们的用户分析框架中结合两个级别的多个数据源建模,我们可以利用这两种方法。我们的混合模型有两个主要属性。首先,它利用所有用户数据源,并通过将所有数据源组合映射到共享表示中来合并模态之间的相关性。其次,在我们的模型中,当我们结合所有数据源组合的决策时,数据源的集成也发生在决策层。此外,为了在多任务学习设置中整合目标变量之间的相关性,我们迭代地利用我们的数据集成框架对学习过程中的依赖任务的决策。

我们选择深度神经网络来实现我们的用户分析模型有几个原因。首先,通过使用模态之间的共享表示,可以很容易地组合各种数据源。其次,我们能够将数据源与非线性函数相结合,这已被证明可以增强学习过程。第三,我们能够在原始数据源上使用神经网络,并使用无监督方法提取特征,即我们在Section中使用的Node2Vec嵌入4. 在本节的其余部分,我们将介绍在我们提出的用户概要分析模型UDMF中,将数据源连接到神经元的结构。为了在UDMF中集成数据源,我们设计了两种机制:堆叠和电源组合。为了呈现它们,我们从非循环图描述的多层前馈网络的一般设置开始。我们从单个数据源D开始作为输入。层h上单元i的激活程度计算如下:

图2:给定一个数据源的2个目标变量的堆叠。

其中l是进行层h的层,j是连接到层h的层l上的所有神经元的范围。whl ij是L层神经元J和H层神经元I之间连接的重量。f是激活函数,其可以是非线性函数,例如用于输出层的S形函数或用于隐藏层的ReLU(ReLU x = max x,0)。第0层单元i的激活度,即连接到输入数据源的层,定义如下(其中h=0):

wij表示从第0层的输入神经元j到神经元i的边缘上的权重,并且Dj表示数据源D的输入神经元j,其中j的范围是从0到输入数据源D的大小的所有值D,|D|。

堆叠。我们在本文中介绍的堆叠机制使得UDMF框架适用于目标变量相互关联的多任务学习。在用户分析设置中 - 这是本文的主要焦点 - 用户属性彼此相关:例如,如果我们知道他们的性别,推断用户的年龄会变得更容易,同样,用户的人口统计和人格特征是相关的,预测一个有助于预测另一个。法纳迪等人。在[6]讨论使用多任务学习在使用三个社交媒体数据集预测用户的个性特征方面的优势。

数字2 表示给定一个数据源的两个目标变量的堆叠,其中每个目标变量训练两个相似的网络,但每个网络的输入包括输入数据源和另一个目标变量的预测输出。

假设学习神经网络的多个时期,方程式2 被等式替换3, 其中z的范围超过目标变量。在时期q的层0上的单元i的激活程度具有以下形式:

其中alpha;z是门控0-1变量。如果z等于网络的目标变量,则alpha;z= 0的值,否则alpha;z= 1.这样,特定目标变量的网络采用另一个目标变量的预测值Tq-1 z 网络制作期间q-1作为输入。我们初始化目标神经元的价值其中q = 0,为零,因此:

在每个时期,基于先前预测的其他目标变量的值来更新目标变量的预测值。如图所示2, 对于具有两个目标变量的示例配置,对于每个目标变量,我们创建具有类似架构的网络。在每个时期,每个目标变量的预测值被堆叠作为另一个网络的输入。这种配置可以很容易地扩展到两个以上的网络,即两个以上的目标变量。我们还可以在每十个时期而不是每个时期更新目标变量的预测值。在第4节介绍的实验中,我们每10个时期更新预测值并迭代10次以获得100个时期。

动力组合。设DS = {D1,D2,......,Dk}是我们想要集成的有限的k个数据源集。请注意,k是一个小数字,因为k表示每个用户拥有的数据源数量。在社交媒体中,k通常在两个到最多五个用户数据源之间(即,文本,视觉,关系,时间,地理位置)。在我们提出的功率集组合方法中,我们通过DS的所有子集的早期集成方法来合并特征和数据源之间的相关性。然后,我们将他们的预测结果作为后期整合方法与集合方法相结合。因此,UDMF模型是混合数据集成模型。UDMF框架的输入层由源自1到k个数据源的输入组成。连接到输入层的第一隐藏层中的每个神经元可以潜在地连接到这些数据源的任何子集的输入神经元。准确地说,给定k个数据源的集合DS,我们计算DS的功率集,即DS的所有子集的集合。我们排除空集,因此所考虑的DS的子集数量为2k-1。根据DS的幂集中的每个非空子集,我们构建迷你DNN。在时期q组合数据源的每个迷你DNN的层0上的神经元i的激活水平是计算如下:

其中Disin;P(DS)是迷你DNN中利用的输入数据源的子集。方程

(5) 是方程式的对应物(2) 在UDMF框架中。

作为UDMF中数据源的功率组合的示例,我们假设两个可用数据源A和B,DS = { A,B},因此P(DS)是{{A},{B},{ A,B },{}}。因此,我们可以制作三个迷你DNN,其中A,B和组合A和B组成相应的输入层。我们为这两个数据源和图中的两个目标变量提供了UDMF网络3. 如图所示,我们为每个目标变量训练三个迷你DNN,因此我们总共培训了六个迷你DNN。每个迷你DNN的输出在每个时期结束时被堆叠作为姐妹迷你DNN的输入,用于下一个时期的训练。

如果我们有三个数据源。即,文本,视觉和关系,以及p个目标变量(例如,p = 7,参见章节4), 我们需要训练(23 minus;1)·7 = 49个迷你DNN。当我们堆叠目标变量时,我们有来自数据源P(DS)的功率集的每个数据源组合的七个迷你DNN的互连网络。因此,我们有七个DNN模型以各种方式组合数据源,并且每个模型包括七个相互连接的迷你DNN。由于在这七个DNN模型的决策级别对多个数据源建模通过多数表决在UDMF中作为后期集成步骤发生,因此每个多目标网络可以彼此分开训练。培训每个电源组合多目标网络并行减少了在很大程度上训练UDMF的时间。

图3:UDMF的体系结构,包含2个目标变量和两个数据源的电源组合。

4 评测

我们使用MyPersonality项目数据集的子集训练和测试UDMF框架。 MyPersonality是2007年推出的流行Facebook应用程序,用户使用标准的Big Five Factor Model心理测量问卷[7]并同意记录他们的回复 和Facebook个人资料。该数据集包含有关每个用户的人口统计信息, 友情链接,Facebook活动(例如,群组从属关系的数量,喜欢的页面, 教育和工作历史),状态更新,个人资料图片和五大人格分数的信 息。但是,并非所有这些信息都适用于所有用户。我们选择了提及英语作为他们语言的用户,他们提供年龄,性别,个性,状态更新,喜欢的页面和个人资料图片。为了增加图像描绘配置文件所有者的机会,我们首先使用Project Oxford Face检测器选择仅有一张脸的配置文件图片 API5。通过删除少于3个喜欢的Facebook页面在此数据集中的用户,我们的最终数据集包括49,372页,以及 5,670个用户的724,948页关系。

人格特征通常使用五个维度来描述 (称为五大),即外向(Ext),令人愉快(Agr),尽责(Con),神经质(Neu)和开放(Opn)。此数据集中的人格分数范围介于1,5之间。我们使用中值为每个特征创建二进制类,其中age = 23的中值,Opn = 4,Con = 3.5,Ext= 3.5,Agr = 3.65,Neu = 2.75。我们使用文本(状态更新),视觉(个人资料图片)和关系数据(页面喜欢)来评估用户概况模型,以预测Facebook用户的年龄,性别和个性特征。

我们系统地执行10倍交叉验证。由于我们要预测的所有特征都是二元的(即正类和负类),为了评估结果,我们使用AUC分数。AUC是ROC曲线下面积(即,接收者操作特征),其通过绘制真阳性率(即,正确预测为这样的阳性部分)与假阳性率(即,阴性部分的阴性)来创建。被错误地预测为积极的)。以下小节中的自然语言处理,机器学习和深度学习技术是使用Python中的scikit-learn和keras库实现的。

为了能够正确地测量UDMF在集成各种数据源中的效果,作为我们配置的基本构建块,我们设计了由三层组成的简单DNN,其中第一层是输入层,第二层是隐藏层每个数据源有100个神经元作为输入,最后一层是表示结果的sigmoid层。对于所有DNN,我们比较的所有网络的隐藏层利用ReLU作为激活函数来模拟输入的非线性组合。我们使用Adam作为优化算法,我们在本文中训练所有DNN模型100个时期,批量大小设置为128. DNN模型的其他参数由默认值设置。我们将模型的性能与简单的多数基线算法进行比较,该算法将多数类从训练实例分配给测试实例。此外,我们将最佳学习模态特征(早期融合)/决策(后期融合)组合的基线方法与训练数据进行比较,以显示UDMF方法的功效。

数据源嵌入

实际上,数据总是包含噪声,如果没有数据清理和预处理,我们无法获得良好的数据表示。在哪些约束下使用哪种数据处理在很大程度上取决于应用程序的类型。在展示UDMF如何融合用户数据之前,我们将在本节中讨论如何为社交媒体中的用户分析任务表示每个数据源。我们定义了三种数据源嵌入:从文本内容嵌入的数据源,从可视内容嵌入的数据源,以及从关系内容嵌入的数据源。我们使用上述数据集获得数据源嵌入。

本数据源嵌入:为了构建文本数据源嵌入,我们将数据集中每个用户的状态更新合并为每个用户一个文档。我们用88个语言查询和字数统计(LIWC)代表每个用户[19]从她/他的状态更新中提取的特征,包括与(a)标准计数(例如,字数),(b)心理过程(例如,仇恨,烦恼,......等愤怒词的数量)相关的特征。文本),(c)相对性(例如,将来时的动词数量),

(d)个人关注(例如,涉及职业的词语数量,如工作,专业,......),以及(e)语言维度(例如,咒骂词的数量)。有关完整概述,请参阅[26]。我们比较了使用各种特征集的性能,即LIWC,n-gram(n = 1,2,3),300维预训练GloVe [20]基于Twitter数据的矢量,以及300维预训练的fastText [10]矢量基于英语维基百科数据和默认参数。具有LIWC特征作为输入层的DNN模型明显优于类似的DNN模型,其他特征集和嵌入作为输入层,因此在本文的其余部分中,我们使用LIWC特征作为文本数据源嵌入。基于LIWC的DNN模型的结果列于表中1 作为“文本”。由于空间限制,我们根据论文中文本的其他表示省略了DNN模型的结果。

可视化数据源嵌入:对于每个用户,我们使用他/她的个人资料图片并使用Oxford Face API提取64个面部特征[4]。提取的特征是面部矩形特征,用于捕捉图像中面部的位置,面部地标特征包括指向面部组件的重要位置的27点面部标志,面部特征包括年龄,性别,面部毛发,微笑,头部位置和眼镜类型。我们比较了作为输入层的Oxford功能的性能,从预先培训的VGG-16和VGG-19模型[25]的最后一层(SoftMax之前)提取了128维激活向量。具有牛津特征作为输入层的DNN明显优于基于VGG的模型,专门用于年龄和性别预测任务。基于牛津的DNN模型的结果列于表中1 作为“形象”。由于空间限制,我们基于纸张中的剖面图片的其他嵌入省略了DNN模型的结果。

资料编号:[3945]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。