英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
2014年IEEE模糊系统国际会议(FUZZ-IEEE)2014年7月6-11日,北京,中国
基于谱聚类问卷数据的少数群体的提取研究
Kazuto Inagaki 名古屋大学 电子邮件:inagaki@cmplx.cse.nagoya-u.ac.jp
Tomohiro Yoshikawa 名古屋大学 电子邮件:yoshikawa@cse.nagoya-u.ac.jp
Takeshi Furuhashi 名古屋大学 电子邮件:furuhashi@cse.nagoya-u.ac.jp
摘要:在营销领域,问卷调查是研究市场或设计营销策略的重要手段之一。另一方面,近年来人们有了各种各样的个性,受访者对评价对象的印象也各不相同。在对收集到的问卷数据进行分析时,不仅要对总体趋势进行分析,还要发现对象较强但与一般群体不同的少数群体。然而,传统的用于问卷数据的聚类分析很难取出少数群体,因为它们的目的通常是提取出多数群体或者进行粗略的聚类。本文提出了利用考虑局部相似性的谱聚类方法提取问卷数据中的少数群体,提取出与一般群体联系较少的群体。
- 介绍
在市场营销中,企业通过市场调研来把我顾客对其产品和服务的印象是非常重要的。例如,当一个公司开发一种新产品时,它在了解目标客户对现有产品的需求和印象后,设计一种营销策略。
市场调研的方法之一是采用评分表法或语意差异法进行问卷调查,通过对多个评分表的每个对象回答一组问题,得出人们对评价对象的印象进行量化的问卷数据。问卷数据一般采用聚类分析、主成分分析、多维定标法等多元分析方法进行分析。然而,这些方法往往以分析整体趋势和特征为目的,将与总体趋势有很大差异的答案视为噪声,可能会对分析结果产生负面影响。
在本文中,我们尝试使用谱聚类来提取受访者中的这些少数群体。谱聚类是一种通过图划分进行聚类的方法,它对子图中相似度高、与其他子图相似度低的数据进行聚类。因此,认为该方法适用于提取与他人印象不同的少数群体。
本文提出了一种基于高斯函数定义被调查者之间相似度的方法并通过迭代划分为两组,逐个提取少数群体,此外,我们还提出了一种基于贝叶斯信息准侧的呗调查者之间相似度函数参数自动确定方法。首先,通过虚拟问卷数据与传统方法的对比,初步实验表明,该方法能够较好地提取假设的少数群体。接下来,将该方法应用到书籍的问卷数据中,发现提取出了少数具有不同于平均值特征的被调查者群体。
- 谱聚类
谱聚类是以数据为节点,以数据之间的相似性为节点之间的边的权重,将聚类问题解决为图划分问题的一种方法。以这种方式表示的整个图通过切割一些边被分成若干子图。定义了一种使得子图的边密集而子图之间的边稀疏的求值函数。虽然已经提出了一些评价功能,本文采用了具有代表性的函数Ncut。划分V的节点,并将其划分为两个子图A和B,子图A和B之间的相似度cut(A,B)定义如下:
w(i,j)是节点i和j之间的边的权值,求值函数Ncut表示为:
它等价于使子图中的相似性变大,而使子图之间的相似性变小,从而最小化这个函数。我们知道,这个最小化问题将导致泛化特征值问题。当W是一个相似矩阵,D是一个矩阵,给出图的除法。因为最小的特征值被设为0,所以使用第二个最小的特征向量。元素值大于某个值的节点被分配给簇A,而那些元素值小于某个值的元素被分配给簇B。对应于元素值主要设置为0、中值或最小值Ncut。在本文中,我们计算Ncut切割每个点,并确定最小值。
- 提出的方法
这一节描述了利用上一节描述的谱聚类提取少数群体的方法。在这里,我们将“少数群体”定义为回答与他人不同但彼此相似的一小群受访者。
- 相似度定义
给定向量Xa,Xb,被调查者的问题得分a和b,它们之间的相似性由下式定义。
式(3)称为高斯函数,是表示方差值的参数。这个函数强调Xa和Xb之间的相似性。当||Xa-Xb||很小,使它大于0,当||Xa-Xb||很大,这种强调越极端。
如第二节所述,谱聚类对图进行划分,使得子图的相似性变大,子图之间的相似性变小。因此,将被调查者之间的相似度定义为,强调了一个群体的相似度与其他的不同,希望能够适当提取出本研究所需要的少数群体。
- 参数的确定
式(3)中的在聚类之前需要确定。然而,很难确定适当值。对聚类结果的影响很大。通常,在分析问卷数据时,需要通过反复试验和误差,从多个不同的角度把握数据的特点。因此,通过改变的值,也可以成为分别对学习组进行分析的有效方法之一。然而,在本文中,我们提出了一种方法来确定。是利用贝叶斯信息准则。均值法是一种具有代表性的聚类方法。BIC由下式表示。
- 重复两次提取少数群体
将谱聚类推广到两个以上的聚类。但是,这种方法需要提前确定群体的数量,因此很难应用于问卷数据的分析,因为现有的少数群体的数量是未知的。因此,本文提出的方法通过迭代第二节中描述的两个除法,将少数群体逐个提取到最大的聚类数。一般认为,当聚类数目足够多时,传统的方法也可以提取少数群体。然而,在这种情况下,我们需要从大量习得的集群中寻找具有特色的少数群体。因此,对少数群体的提取和逐一分析是可行的。
- 算法
该方法的算法如下所述。
- 相关工作
基本上,在问卷数据分析中,针对少数群体提取的研究报道较少。一些方法可以用于提取少数群体。然而,它们中的大多数主要是针对提取异常值和异常数据,而不是针对少数群体。因此,当我们将这些方法应用于实际问卷数据时,在很多情况下会逐个提取异常数据。
Ando等人提取出了一种利用信息理论聚类方法对全局分布的多数群体和局部分布的少数群体混合数据进行聚类,以检测少数群体。Gonzalez等人提出了一种利用低成本的弱簇迭代局部分布稠密数据的提取方法。然而,这些方法倾向于提取分布中最密集的组。问卷数据一般有很多受访者的回答得分都在所有问题的中值附近。因此,这些没有任何有趣特征的多数群体的受访者将被这些方法提取为少数群体。如上所述,本研究旨在提取与内部相似度高、与外部相似度低的小群体。因此,采用上述方法提取少数群体比较困难。此外,Ando的方法需要预先假设多数和少数群体的分布。
Fukami等人提出了一种基于MDS数据配置误差的可视化提取少数群体的方法。该方法的不同之处在于,该方法的前提是通过人工分组回答者的迭代,通过反复试验和误差找到少数群体。
- 试验
在本节中,我们将第三节中所述的方法分别应用到虚拟问卷数据和实际问卷数据中,并与传统方法进行了性能比较。
- 虚拟问卷数据应用
- 虚拟问卷数据:我们采用五步法生成虚拟问卷数据,评估对象1个,问题10个,被调查者650人。将被调查者分为表一所示的七组。表一中,5、6、7组为本实验假设的少数群体。
图1显示了给予10维向量之间欧式距离的MDS评分分布,10维向量以10个问题的得分为元素。图2显示了每个组和所有受访者的平均得分。在图1中,MDS对尺寸压缩产生的失真将Group7直观地分为两部分。
- 实验设置:对上述虚拟问卷数据,我们三次提取少数群体作为初步实验。在每次提取中,我们确定的值。此外,我们还将该方法的结果与代表性聚类分析之一的树状图的结果进行了比较。
- 结果与讨论:图3为本文方法提取的三个聚类的可视化结果,图4为各聚类的平均得分。
该方法提取的5、6、7组为假设的少数群体,分别按6、5、7组排序。如图4所属,与第5组和第7组的设置号相比,多了一个被调查者聚在一起。这是因为有与5组合7组得分相似的被调查者,在4组中,所有问题的得分都是随机标记的。相反,第5、6组的受访者。
7名被认为是少数群体的人,除了6组中的一名被调查者外,都属于第二组、第一组和第三组。结果表明,该方法能较好地提取少数群体。由图5可知最优值。
图6显示了树状图的结果。我们使用Wardrsquo;s method来计算簇间的距离,因为这种方法在分类上有很好的性能。图6显示,组5、组6、组7分别聚类,与其他组相对分离。然而,当被调查者被分层划分时,第3、4、6组和第6组将被抽取出来。仅仅把这些群体作为少数群体是很难的。Ward的方法倾向于使每个组的数量相等,因为它是按照组间方差最大化的准侧进行聚类的。另一方面,引入单连接方法作为允许簇数偏差的一种方法。然而,它倾向于将数据一个接一个地与集群结合起来,这被称为链。因此,该方法不适合提取少数民族。
- 实际问卷数据的应用
- 实际问卷数据:以1014名被调查者为评价对象,对下一代服务进行网络问卷调查。问卷采用评分表法,要求被调查者在10个问题的回答中选择1、2、3、4、5个年级中的一个。在本次调查中,5年级代表“非常同意”,1年级代表“非常不同意”。表2给出了6个作为评价对象的下一代服务,表3给出了每个对象的10个问题。注意,评价对象是通过实际问卷表二中对评价对象更具体的描述向受访者展示的。
表二、评价对象
对象1售后服务对象解释不清
目的3回收利用的解释不清
对象4详细说明售后服务对象5详细说明无所不在
目的对回收利用进行详细说明
表三、问题
问题1我对它感兴趣
问题2我想把它推荐给周围的人
问题3它有很高的社会需求,可能会蔓延
问题4提供这种服务的公司的形象可能会改善
问题5提供信息的公司负担太大
问题6目标是错误的
问题7只有某些人会欣赏它
问题8它有社会问题的本质
问题9尽管它对社会很重要,但公共当局应该提供帮助,因为提供帮助的公司负担很大
问题10这是未来的服务
- 实验设置:我们采用提出的方法提取少数群体。评分采用60维向量,由6个对象回答10个问题。每个被调查者的向量。受访者的聚类也通过树状图进行。
- 结果与讨论:图7为采用本文方法提取的聚类的MDS评分结果的可视化结果。图8显示了每个集群的受访者数量和平均得分。
图7所示,提出方法聚类结果(实际数据)
- 第一组(10人)
- 第二组(4人)
- 第三组(3人)
- 第四组(3人)
- 第五组(2人)
- 所有受访者(1014人)
图8所示,每个集群的受访者数量和平均得分(实际数据)
图8(a)中簇1为得分趋势与图8(f)中所有被调查者得分趋势相反的被调查者。图8(b)中第二组的平均每题得分为1或5分,发现他们的回答相对极端。群集3和4与群集相似。
- 两者的差值是第9题和第10题的分数差。第5组被调查者对几乎所有问题的回答都很低。因此,我们认为该方法还可以从实际问卷数据中提取出具有代表性的少数群体。此外,图9中的树状提结果显示,提取被认为是少数群体的特征群体是困难的。
图9所示,树状图结果(实际数据)
- 结论
本文提出了基于谱聚类的问卷数据中少数群体的提取方法。首先,作为初步实验,该方法可以在虚拟问卷数据中适当提取假设的少数群体。接下来,我们将所提出的方法应用到实际的问卷数据中,发现我们提取出了一小部分具有不同于其他被调查者趋势特征的被调查者群体。在未来的工作中,我们将研究抽取的少数群体的有效性,并分析被调查者之间的相似函数与得到的结果之间的关系。
参考文献
以数据分布为中心的聚类方法分析sd评价数据之建议,《计算科学前沿》,第317-320页,施普林格,2007.
轮椅使用者振动投诉问卷调查结果与手动轮椅振动传递能力的关系,《环境卫生与预防医学》第八卷,第一期,第2-3页,2003.
奥斯古德:《意义的测量》,第47卷。伊利诺伊大学出版社,1957年。
徐善华、庄明昌,设计人员与使用者之产品形态知觉之语义差异研究,国立台湾科技大学机械工程研究所硕士论文,第25卷,第1期。第375-391页,2000.
陈立新,应用系统之聚类分析,国立台湾科技大学资讯工程学研究所硕士论文,民国87年。
将统计变量的复数分解成主成分的分析,《教育心理学杂志》,第24卷,第2期。6,第417页,1933年。
通过优化非度量假设的拟合优度来进行多维尺度分析,《心理测量学》,第29卷,第1期,第2页,1,第1-27页,1964年。
许俊杰、马立克,图像分割与正规化切割,模式分析与机器智能,国立台湾师范大学资讯工程学研究所硕士论文,第22卷。8,第888-905页,2000.
x-均值 有效估计聚类数目的k-均值的扩展,在《ICML》,第727-734页,2000.
估计模型的维数,《统计年鉴》,第6卷第1期。2,页461-464,,1978.
卢斯伯格,谱聚类之研究,国立台湾师范大学资讯工程学研究所硕士论文,《计算》,第17卷,第7期。4,第395-416页,2007.
王,肖,余,杨,基于距离的不确定数据离群监测,计算机与信息技术,2009.CIT的09年。第九
全文共5537字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[2394]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。