英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
挖掘公司年度报告以智能检测财务报表欺诈 - 机器学习方法的比较研究
摘要
财务报表舞弊一直是投资者,审计公司,政府监管机构和其他资本市场利益相关者的严重关切。因此,已经开发了智能财务报表欺诈检测系统来支持利益相关方的决策。在最近的研究中已经注意到在管理评论中欺骗性地陈述最近的言论。因此,本研究的目的是研究是否可以通过将企业年度报告中的财务信息和管理评论的特定特征相结合来开发改进的金融欺诈检测系统。为了开发这个系统,我们使用了广泛的机器学习方法来进行智能特征选择和分类。我们发现集合方法在真正的阳性率方面胜过其余的方法(欺诈性的rms被正确地分类为欺诈性)。相反,贝叶斯信念网络(BBN)在非欺诈性有效值(真负率)上表现最好。这一结论非常重要,因为可以推导可解释的“绿色ag”价值(可能缺少欺诈),从而在客户选择或审计计划期间为审计人员提供潜在的决策支持。我们也观察到,年度报告中的财务报表和案文都可以用来检测非欺诈性企业。但是,非年度报告数据(分析师对收入和收入的预测)对于检测欺诈性公司是必要的。这对于在开发财务报表欺诈预警系统时选择变量具有重要意义。
1.介绍
根据公认的会计原则[1],财务报表欺诈可以被视为重大遗漏或虚假陈述,因为故意不报告财务信息。 据审计质量中心报告,个人因多种原因从事财务报表欺诈行为,包括个人收益,满足短期财务预期的需要以及隐瞒坏消息的愿望。 欺诈性财务报表被操纵为令人信服地与非欺诈性报表相类似[2],常见类型包括不确定性收入确认,低估/收入多报,费用,资产或负债,以及虚假陈述(或遗漏 )在财务报表脚注或管理层讨论与分析(MD&A)中,见例如 [3]的概述。
在过去的几十年中,主要公司发生了最近的欺诈行为,这对资本市场和股东价值的损失都有负面影响。特别是,Beasley等人[4]报告指出:(1)平均欺诈性公司的股票价格下降了16.7%,原因是初步披露了涉嫌欺诈行为; (2)28%的欺诈公司在两年内破产或被解雇; (3)47%从全国证券交易所摘牌;及(4)62%受重大资产出售影响。此外,美国历史上十大破产案中有四起与重大金融诈骗有关[5]。事实上,金融欺诈可能是导致破产的重大金融问题的有效指标[6]。因此,财务报表欺诈一直是投资者和其他资本市场利益相关者的严重关切。
尽管检测欺诈需要深入的专业知识,因此越来越多地是外部审计师的责任,但之前的研究表明,审计师未能发现重大欺诈行为[7]。此外,审计公司的可信度由于所报告的利益冲突而受到了打击[8]。手动检测也被认为是耗时,昂贵且不准确的[9]。因此,准确的自动化系统已成为财务报表欺诈检测的核心问题。对于投资者(做出更明智的决策),审计公司(同时进行客户接受和日常审计)和政府管理者(更好地集中调查工作),系统对检测能力的增强尤为重要[5, 10。因此,已经开发了财务报表舞弊智能检测系统,以提供支持利益相关方决策过程的早期预警信号(红色标志)。为了说明这些系统日益增加的重要性,美国证券交易委员会(SEC)宣布开发风险和定量分析中心,利用定量数据和分析来检测,调查和预防危害投资者
已经发表了大量有关智能财务报表欺诈检测的文献,其中使用了计算智能方法,如神经网络[11-14],决策树[15],支持向量机(SVM)[16,17],进化算法[18,19]和文本挖掘[20-22]。此外,还调查了相关的金融欺诈类型,如信用卡欺诈[23,24],证券和商品欺诈[25]以及保险欺诈[26]。
考虑到每种金融欺诈类型的具体特点,开发了特定方法(调查见[9,27])。事实上,由于大量的包含管理评论和解释的文本数据,文本挖掘方法在财务报表欺诈检测和相关的财务决策问题[28]中越来越受到重视。一些研究已经观察到这些文本的内容欺骗导致的虚假陈述,表明了对财务报表的欺诈性歪曲[29]。管理评论的分析也很重要,因为大多数重大财务报告舞弊涉及高级管理层,他们有机会进行欺诈的机会,能力和动机。然而,在智能财务报表欺诈预测中将金融和语言数据结合起来的注意力过少[30]
本文提出了一种智能检测欺诈的检测系统,该系统融合了(1)金融和语言数据,(2)自动特征选择,以及(3)准确和可解释的分类模型的优点。因此,本研究的主要目的是研究国家(公开可用的财务报表和分析师的预测)和语言数据的作用。虽然先前的文献已经证明为了提高欺诈预测的准确性而丢弃非信息性特征是重要的[30],但在欺诈检测文献中,智能特征选择被忽略了。因此,本研究的第二个目的是评估基于相关性的过滤器的效果,该过滤器考虑了欺诈预测因子之间的强相关性。第三,我们调查了广泛的机器学习方法(逻辑回归,贝叶斯方法,决策树,SVM,神经网络和集成方法)以建立欺诈预警系统。要在实践中采用,这个系统不仅要准确,而且要易于解释[31]。然而,文献中报告的大多数欺诈检测系统是通过最大限度地提高预测的准确性而忽略可解释性而开发的。这个方面特别重要,因为特别是在最近的南美危机之后,发展透明模型变得至关重要。因此,我们在这项研究中提供了两种可解释的基于Nave Bayes的模型。具有“绿色ag”和“red ag”值的BBN可以用来计算财务报表欺诈的概率,而决策表/ Nave Bayes混合模型提供了一组判定规则来检测欺诈性/非欺诈性有效值。
在这项研究中,我们检查了一份由美国证券交易委员会在2005 - 2015年期间发布的311份涉嫌会计和审计执行释放的欺诈性财务报告样本。 为了获得一类非欺诈性公司,我们确定了一个行业规模匹配的控制公司样本。
本文的其余部分安排如下。 下一部分回顾了以前关于智能财务报表欺诈检测的文献,而第3部分介绍了金融和语言变量并描述了我们的数据集。 在第4节中,我们制定了检测欺诈性财务报告的方法,包括分类方法和绩效指标。 第5节介绍了预测结果和特征选择的敏感性分析,第6节我们讨论了这项研究的贡献。 最后,第7部分结束本文,并展示未来可能的工作。
2.智能检测财务报表欺诈
以前的研究已经报道了计算智能方法优于传统统计方法的检测性能。因此,我们将以前的文献讨论局限于使用智能财务报表欺诈检测的研究。表1列出了相关研究,列出了使用的方法,数据和最终的分类准确性。关于所使用的输入变量,以前的研究主要采用从财务报表中取得的财务指标。这是因为金融变量的异常值可能表明需要实现目标或隐藏损失。这种欺诈行为的压力/诱因增加了欺诈的可能性[12,32]。因此,先前研究所使用的金融变量涵盖了公司财务绩效的各个方面,如可持续性,活动,资产结构,流动性,业务状况,杠杆率和市场价值[2,33,34]。此外,欺诈的机会也增加了欺诈风险,因此也利用了与机会相关的非金融变量,如内部持股或再投资比率[12]。最近的研究已经开始集中在可能包含误导性陈述的与RM相关的文本文档中提取的语言变量上。据报道文本挖掘对于财务报表欺诈非常有用,因为大量的文本数据与此类欺诈相关[9]。 Humpherys等人[35]对上市公司必须与证券交易委员会进行年报表10-Ks的MD&A部分进行了文本分析。 Humpherys等人[35]通过使用诸如词汇多样性和句法复杂性等语言特征的度量,实现了高达67.3%的准确性。情感分析和词性特征被[36]使用,表明欺诈性报告中的正面和负面情绪都更为明显。 Minhas和Hussain [37]比较了词语和感官分析,表明他们在预测财务报表欺诈行为时表现出类似的表现。此外,非言语声音线索在财务报表欺诈检测中显示出有希望的结果[30,38]。使用通用的预处理和统计方法,非结构化数据可以转化为定量变量。这使得随后使用分类方法成为可能。
最常用的分类方法是逻辑回归,神经网络,决策树和SVM。 Logistic回归已被用作传统统计基准分类器[39]。关于财务报表欺诈检测的文献中已经提出了各种神经网络,包括多层感知器(MLP)[11],概率神经网络[33],组方法数据处理[32],径向基函数神经网络网络[16],以及增长的分层自组织映射[2]。决策树包括单个决策树(例如,C4.5 [15]或C5.0 [40])和决策树的集合,如堆叠[15]或装袋[41]。进化计算如遗传算法[18],遗传规划[32]或Re [19]也被用于辅助决策树的设计和培训。尽管神经网络和决策树可以处理欺诈检测问题的非线性特征,但他们因泛化性能差而受到批评。另一方面,支持向量机在测试数据方面提供了很高的泛化能力[16,41],尽管它们在噪声数据上表现不佳[15]。为了提高SVM和其他机器学习方法的性能,Kim等人[42]使用包含粒子群优化算法的包装来进行特征选择。
数据中的欺诈均数范围从12到788 [30,42]。对于美国的公司,美国证券交易委员会的执法发布被用来找到rms进行财务报表欺诈的子样本。然而,这种方法的主要局限性在于对公共公司的关注,降低了推广研究结果的能力[13]。大多数研究采用了成对的方法,将非欺诈的有效数量与欺诈有效数量相匹配[32,35]。相应的年份,行业和规模主要被用作匹配标准。鉴于所调查的国家和监测期间的审计和报告标准存在差异,因此很难比较各研究所达到的准确性。对于美国公司来说,精确度从63.7%[34]到91.2%[43],而希腊公司的最佳表现为95.1%[15],中国公司的98.1%[32]和台湾公司的92.8% [12]。财务报表欺诈检测是一种二元分类问题,有四种可能的分类结果[41]:(1)真正的(一种欺诈行为被正确地分类为欺诈行为); (2)虚假负面(一家欺诈企业被错误地归类为非欺诈企业); (1)真正的否定(非欺诈rm正确分类为非欺诈rm);和(2)误报(一个非诈骗rm被错误地分类为欺诈rm)。以前的大多数研究都使用准确率,真阳性率和真阴率来确定预测性能[9]。然而,如[41]所述,假阴性和假阳性分类与不同的错误分类成本(MC)相关联。在智能财务报表欺诈检测中,更高的灵敏度更适合更高的特性。然而,大多数方法在正确检测合法交易方面表现明显优于欺诈交易。
3.数据
我们在美国证券交易委员会披露的美国证券交易委员会会计和审计执行释放(AAER)中找出涉嫌欺诈性财务报告的事例。这项披露事件的前一个重大调查涉及会计和审计问题。在违反证券交易委员会和联邦规则的情况下,证券交易委员会可以对公司采取执法行动。如[34]所述,这种欺诈性公司的来源有几个重要的优点。首先,这是一个简单而一致的方法,可以很容易地复制。因此,可以避免与主观分类相关的潜在偏差。其次,由于重点关注最重要的案件,证券交易委员会捕获了大多数具有重大经济意义的欺诈行为。事实上,AAER比对比数据库捕获的信息相关事件多三倍以上[44]。第三,美国证券交易委员会欺诈性财务报告的高度一致性是由于美国证券交易委员会仅在强有力的操纵证据(通常基于内部告密者或新闻和分析报告)的基础上才采取执法行动。最后,AAER与其他数据库相比,不促使美国证券交易委员会实施金融失实陈述的观察比例较低[44]。这些就是为什么这种欺诈性的财务报告来源在以前的研究中盛行的原因[29]。
3.1金融变量
选择金融变量来识别金融不正常现象,从而表明陈述欺诈。如上所述,所选择的一组金融变量应涵盖企业国际绩效的所有方面,以检测不同类型的财务报告欺诈行为,例如低估/夸大收入,资产,支出或负债。以前的文献为使用金融变量提供了强有力的理论证据[5]。因此,我们选择表2中的金融变量因此受到之前的金融欺诈检测研究的影响。输入变量可以分为九类:公司声誉,企业声誉,可行性比率,活跃比率,资产结构,业务状况,流动性比率,杠杆比率和市场价值比率。
Throckmorton等人[30]报告说,财务绩效差的大公司更容易受到财务重述。相比之下,Persons [45]认为,欺诈性公司平均比非欺诈性公司小。作为rm规模的代理,我们根据以前的研究[30,46]使用总资产和收入。公司的声誉很难衡量,尽管在某种程度上这个因素可以从关于内部人和机构持股的信息中推断出来[47]。根据代理理论,增加内部人持有资产应该可以减轻经理人的欺诈倾向。然而,倾向也受到欺诈收益和相应惩罚的强烈影响[48]。业内人士和机构持股可能也表明董事会缺乏监督,因此有机会进行欺诈[12]。
发现财务表现不佳与加大管理舞弊的动机有关[13]。可行性比率被认为是最重要的财务绩效指标,表明资产管理的影响,即融资和流动性对公司价值的影响。有报道称,低浮动率可以激励管理层夸大收入或低估支出[34,45]。而且,夸大的收入会影响营业利润率[5,20]。为了进一步考察收入多报的可能性,我们将活动比率包括在内,衡量资产管理的有效性,并指出管理层的竞争能力,这可能提供夸大收入的激励[45,46]。此外,管理层可能操纵应收账款和库存,增加非现金营运资金[5,13,20,45]。为了对投资者更具吸引力,公司也可能容易操纵固定资产,例如通过使用不适当的折旧方法[46]。对财务报表欺诈的另一个动机是需要持续增长[30]。以前的研究表明,欺诈性公司的销售量通常会增加[5,33]。此外,报告的收入欺诈率低于销售额,一般和行政支出(SG&A)收入的比例[5]。低流动性也为管理人员犯下财务报表舞弊提供了激励。与[45]达成一致意见后,我们使用非现金营运资金来衡量流动性。利用杠杆比率(账面债务占总资产)用于检测公司是否在没有任何相应债务的情况下巧妙地将资产包括在资产负债表中[5,20]。更高的杠杆率提供激励机制来提高财务绩效,因为它将风险从权益所有者转移到债权人[32]。
最后一类金融变量与股票市场激励相关。管理者特别关注高股价,因为管理层薪酬通常与股价表现挂钩[34]。市场价值比率反映了市场对过去的企业活动及其未来前景的看法[47]。为了获得积极的看法,管理人员可能会试图操纵收入和股息。此外,Throckmorton等人。 [30]报告说,高度不稳定的股票回报使公司更容易受到财务重述。在这里,我们用Beta系数来衡量股票价格的波动。最后,价格对账面价值比率被用来评估增长预期,并被发现是欺诈性公司的异常高的指标[34]。同样,在财务报表欺诈之前的几年中,观察到强劲的股票回报表现[33,34]。
综合来看,该数据集包含32个输入金融
全文共5972字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11059],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。