英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于创造性计算方法的混合业务离群点检测算法
Qinyun Liu
Centre for Creative Computing Bath Spa University
England
qinyun.liu15@bathspa.ac.uk
Qing Duan
School of software, Yunnan University
China
Hongji Yang
Informatics Department University of Leicester
England
William C. C. Chu
Dept. of Computer Science
Tunghai University
Taiwan cchu@thu.edu.tw
摘要 - 业务异常值会对公司的发展产生负面影响。 检测异常值始终是一个重要的主题。 传统上,异常值检测可以通过使用统计分析软件或仅人工分析来完成,但效率低是这种方法的缺点之一。 在本研究中,通过将三种不同类型的检测方法与创造性计算方法相结合,建立离群点检测算法。混合业务离群点检测算法采用统计方法对数据进行预处理,主成分提取采用PCA算法,BP神经网络完成离群点分离。在该算法中,每一部分都可以在适当的位置达到有效的工作条件。 同时,BP神经网络和PCA可以提高离群点检测结果的准确性。
关键词 - 业务异常值,PCA,BP神经网络,创造性计算,业务分析 I. 导言
最近,业务异常检测变得流行起来。 单个公司的核心竞争模块是商业模式。 与业务模型相关的是内部和外部方面的业务运营活动。 为了提高公司在市场中的表现,也就是说将业务模型更新为最优,通常使用业务分析方法解决问题。 一般而言,公司的三份财务报表即资产负债表、收入表和现金流量表,可以代表整个市场的表现。 业务分析旨在通过统计方法分析三张表中的数据变化,人工找出问题,然后召开小组会议制定解决方案。 传统的过程似乎效率很低且精度不高。
此外,随着神经网络的复苏,异常值检测有另一个救星。反向传播神经网络和复制器子神经网络在分类方面具有很好的性能,尤其是异常检测。因此,BP和RNN在企业异常值检测中的应用成为众多研究者关注的焦点。由于宗教训练,准确率有了明显的提高。然而,神经网络的效率在某种程度上有点低。如果神经网络被迫完成离群点检测的整个过程,一些多余的步骤将消耗更多。
本文旨在找到一种创新的方法,即将统计分析方法和神经网络算法与传统算法(主成分分析)相结合,实现有效、准确的业务异常检测过程。它可以通过反向传播神经网络算法实现精确的检测,也可以通过统计工具和PCA实现有效的预处理和预分析。三张表中的财务数据是目标数据集,最终输出是准确的离群值(除了人工中的一般误差)。为了实现新算法,创造性计算方法在研究中被用来建立商业和计算机科学之间的联系。
本文除引言外,分了四个部分介绍了新业务离群点检测过程,分别是相关工作、主要算法、案例研究以及总结和未来工作。
II 背景和相关工作
A· 业务异常检测算法
本节介绍了离群检测技术和相关算法。 离群点检测包含了几种技术,并且针对这种描述离群点检测的光谱提出了不同的研究方法,包括新颖检测、异常检测、噪声检测、偏差检测或异常挖掘[1,2,3]。Grubbs表示异常值检测是为了使标记的目标偏离发生的样本[2,5]。 Barnett和Lewis将这些异常值解释为“一种似乎与该数据集其余部分不一致的观察结果”[2,4]。
在本文中,可以使用Barnett和Lewis的拟议研究的定义,忽略双类隶属问题或分离噪声和异常值。
为了解决离群点检测问题有三种基本方法可用于进一步发现创造性算法,这些算法包括:
在事先不知道数据的情况下确定离群值[1,7];
模型正态性和异常性[1,8];
仅模拟正态性或在极少数情况下模型异常[1,6]。
方法一:这种方法是一种学习方法类似于无监督聚类。该方法将数据作为静态分布处理,并指出样本集中的最远点,然后将这些点标记为可能的离群值[1]。在这种方法中,假设故障与正常数据分离,然后成为潜在的异常值[1]。当数据可用且是静态的时,可以使用这种方法。且有两种子方法可用,即诊断和调节。
诊断方法侧重于潜在的异常值。当发现异常值时,系统可以从处理程序移除异常值[1]。适应度是另一种异常值检测和处理方法,其目的是将异常值纳入模型中,建立分类方法[7]。这些方法是健壮的,通常用于一些异常值处理[7]。当在数据集中面对大量异常值时,考虑到成本性能,非稳健方法似乎更好[9]。
第二种方法是对正态性和异常性进行同时建模[1]。这种方法类似于监督分类,需要对数据进行标记[1]。可以使用正常或异常标签标记数据,处理后分离异常值,正常的数据类保存在不同的类中以供进一步使用。该方法可用于在线分类,分类器可以学习如何划分数据。然后,模型对新样本进行分类,以识别正常数据中的异常值[5]。
第三个是模型唯一正态性或极少数情况下模型异常[1,6]。这种方法可以通过在检测新数据时逐步学习模型来建立正常数据的边界。
基于三种基本方法,可以使用几种模型来实现它们。统计模型和神经网络模型更适用于异常值检测[24]。在业务分析中,通常提到三种类型的算法,分别是统计算、传统分类算法和神经网络算法[25]。
统计算法是目前大多数公司欢迎的通用算法。在神经网络近年来复苏之前,统计算法是大多数商业公司最强大和最有效的分析工具[26]。统计方法易于理解和操作。对于负责决策的高级管理人员来说,结果是直观的[27]。但是,分析结果在某种程度上是肤浅的。
传统的分类算法用于建立业务预测模型,例如业务失败预测,业务破产预测或未来发展趋势预测[28]。异常检测问题也可以通过使用传统的分类算法来解决。例如,支持向量机是一种经典的分类算法,可以将数据分成两组。 支持向量机可以从正常数据组中提取异常值,但是当数据集很大时,准确性不能得到满足[25]。
神经网络可以使处理结果更准确。反向传播神经网络可以解决孤立点检测问题[8]。尽管BPNN可以实现高精度,但算法的效率很低[8]。与统计算法相比,数据预处理在神经网络算法中可能花费更多时间。
B.商业模式影响因素
解释如何为数据公司建立商业模式(商业研究报告中的数字)。分析商业模式已经成为公司的核心部分[15]。一个有竞争力的商业模式可以维持公司市场的占有率。通常,在公司中,有几个报告和报表可以描述单个公司的业务模式和运营情况[15]。资产负债表可以描述业务模型并解释公司的相关经营风险。通过对资产负债表的分析,分析师可以获得有关流动性比率的重要信息,这会影响短期内偿还债务的能力[11]。偿还债务的强大能力可以更容易地扩大公司的发展规模[12]。资产负债表中的营运资金代表风险承担的能力。当营运资金为正时,公司可以成为风险承担公司[13,14]。财务结构可以代表目标公司所属的相关行业的特征[12,14]
根据公司的收入表,增加收入的相关数据和成本控制数据应被视为商业模式的有影响因素[14]。收入数据代表了行业的发展状况。如果近年来收入表上的收入不断增加,该公司似乎是一家发展良好的公司[13]。此外,成本控制可以使公司更具竞争力。较低的成本可以为公司带来更多的现金流,从而提高偿债能力。研发和开发投资也可以通过收入表获得。这些数据代表了公司未来的竞争力[13]。
现金流量表有四个重要方面需要分析。现金流量数据对于理解财务变化至关重要[17]。公司应该把重点放在如何将现金分成三类,即经营活动、投资活动和融资活动[17]。首先是收入和运营活动,可以描述组织的竞争力[16]。另一个是经营活动的现金流量和净收入。这两个数据可以代表赚钱的能力[16,17]。第三是现金流和债务比较,这可以解释公司偿还债务的能力。最后是投资和融资活动的现金流量。投资公司的经理们展示了对公司未来的看法[18]。因此,分析现金流中的异常值,即可帮助公司保持竞争力并避免破产。有效的现金流量运营也是商业模式的重要组成部分。要建立创造性的商业模式,现金流和经营活动分析是必要的。
基于提议的研究,有15个方面可能导致商业公司失败[21]。这十五个方面分别是资金、记录保存和财务控制、行业经验、管理经验、规划、专业顾问、教育、人员配置、产品/服务时间、经济时间、年龄、合作伙伴、父母、少数族裔、、市场营销[21,22,23] ]。公司的三个财务表与从业务方法得出的十五个方面之间存在联系。例如,资本方面代表公司的资本状况可以影响未来的发展。充足的资本可以使公司获得更大的成功机会。相反,资本不足的公司未来可能会失败。这方面可以在财务报表中列出。初始投资和现金流量可以代表公司发展的资本是否充足。在财务报表和15个重要的有影响力的方面之间建立联系是进一步分析[23]的必要条件[23]。
C.创造性计算方法
创意计算是一个新概念,为解决大数据时代的问题提供了新的方法。通常,创意计算是指一种新鲜、新奇、有用的计算,这种计算可以被称为创造性计算[19]。新的计算技术能够为用户提供新颖、惊人和有用的服务。要理解创造性计算,有必要理解概念中的两个词:创造性和计算[20]。创新在每个学科中都发挥着至关重要的作用,以提高技术和运行效率。创造力是一种实现创造性想法和工艺品的能力[19]。因此,需要创造力来创造新鲜、令人惊讶和有用的服务。创造力有一系列层次结构,可分为H-创造力、P-创造力、探索性创造力、转化性创造力和组合性创造力[20]。 H-creativity指的是历史创造力,这意味着这种创造性的服务或实验在世界上从未被发现过。 P-创造力是心理创造力或个人创造力的简称,这在个人层面[20]。此外,探索性创造力代表了现有的概念空间,进行研究以实现创造力[19]。此外,转换性创造力代表着在改造现有概念空间的基础上创造一个新的概念空间。组合创造力旨在将类似的想法和想法结合起来,以建立新的方法。创意计算属于组合创造力。创造性计算的核心目的是通过在不同的领域中编织和整合相关的前期研究来建立新的思想[19]。
III混合业务异常点检测算法
在这一部分中,对算法的主要步骤进行了说明和描述。该业务异常检测过程主要有三个步骤,即数据准备、主成分分析、反向传播神经网络分类。与传统的离群点检测算法相比,每个步骤都是提高效率和准确性所必需的。
首先,应对目标公司的原始数据进行预处理。它包含长达十年的相关数据,可以计算此期间每个月的变化率。其次,主成分分析用于处理数据并找出主要趋势。第三,基于神经网络主成分,反向传播神经网络可以将异常值与正常误差中分离出来。
传统的业务分析算法通常基于个人的方法来得出结论。结果似乎是科学的,但深度数据挖掘的性能有点弱。将统计算法、传统分类算法和神经网络算法分别用于业务分析和离群点检测,造成资源浪费,精度相对较低。将三种算法组合为一种算法,可以实现更准确的业务异常点检测。该算法采用创造性的计算方法,实现了跨学科的方法,可应用于业务异常点的检测。
该算法在以下三节中进行了解释。
A.用统计算法处理财务数据
在公司中,核心业务模型可以用各种报表中的数字来表示。在一家普通公司,资产负债表、收入表和现金流量表这三种财务报表几乎可以描述整个经营活动。这三张表中的更改数据可用于业务分析。
在本文中,从公司的三个基本表中收集数据,并计算每个月与前一个月的变化情况。不断变化的数据持续时间可能是十年或更短。所有变化的数据包括流动资金、流动性债务、流动性比率、长期资本、长期债务、研究成本、收益比率等。
根据文献综述,业务分析可能会受到至少15个变量的影响[25]。
在十五个变量中,不同公司的基本变量是不同的。整个财务数据分别手动与十五个变量相关。在财务分析的基础上,可以使用财务分析软件对十五个变量进行加权。该研究重点关注15个变量中的4个。计算了十五个方面的财务数据变化率,并从高到低排列。选择最高的四个方面进行进一步分析。则各方面的权重确定如式(1)所示:Q=A1X1 A2X2 A3X3 ········································································································································· A15X15 M (1)
每个方面的权重可以通过SPSS软件使用统计方法确定。 有关计算步骤是:
将财务数据输入SPSS软件后,研究人员可以计算每个变量的数据集和相关特征值的总方差。 然后可以输出特征值与每个变量的总方差之间的比率。 为了选择对企业经营最有影响的变量,这些比率应该从高到低进行排序。最高的四个变量可以是此步骤的最终输出。
B.主成分分析
全文共13009字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[2306]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。