英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
发现金块:数据挖掘在金融应用
摘要
随着经济全球化和信息技术的不断发展,金融数据的生成和积累速度前所未有。因此,迫切需要采用自动化方法,切实有效地利用大量财务数据,支持公司和个人进行战略规划和投资决策。数据挖掘技术已用于发现隐藏的模式并预测金融市场的未来趋势和行为。数据挖掘带来的竞争优势包括增加收入、降低成本以及大大提高市场响应能力和感知能力。大量的研究和实践侧重于探索数据挖掘技术来解决财务问题。在本文中,我们从技术和应用两方面来描述金融应用背景下的数据挖掘。此外,我们比较不同的数据挖掘技术,并讨论特定财务应用中涉及的重要数据挖掘问题。最后,我们着重介绍了该领域未来研究的一些挑战和趋势。
关键词 : 数据挖掘、财务应用、遗传生物、神经网络、规则归纳、统计推理。
- 简介
随着经济全球化和信息技术的不断发展,金融数据的生成和积累速度前所未有。它用于跟踪公司的业务,监控市场变化,并支持财务决策。尽管如此,快速增长的数据量远远超过了我们手动分析数据的能力。迫切需要采用自动化方法,切实有效地利用大量财务数据,支持公司和个人进行战略规划和投资决策。
数据挖掘能够发现隐藏的模式,并预测金融市场的趋势和行为。它为公司创造机会,以便做出主动和知识驱动的决策,以获得竞争优势。数据挖掘已应用于多种金融应用,包括交易模型开发、投资选择、贷款回放、投资组合优化、欺诈检测、破产预测、房地产评估等。数据挖掘带来的竞争优势包括增加收入、降低成本以及大大提高市场响应能力和感知能力。
本文重点介绍了金融领域现有的数据挖掘应用。论文的其余部分按如下方式组织。第二节介绍了数据挖掘的基本概念以及金融应用中数据挖掘所涉及的问题。第三节介绍了几种常用的数据挖掘技术,并比较了它们在多个维度上的特征。第四节详细讨论了特定财务应用背景下的数据挖掘技术。在第五节中,我们讨论了该领域未来研究的一些趋势和挑战。
第二章
数据挖掘在金融应用中的分类和问题
数据挖掘旨在发现大型数据库中的隐藏知识、未知模式和新规则,这些知识对于制作关键数据具有潜在效用并最终可以理解。它在可接受的计算效率限制下应用数据分析和知识发现技术,并在数据上生成特定的模式枚举 [1]。通过更深入了解数据获得的见解有助于迭代地改进业务实践。如今,数据挖掘软件供应商正在将基本数据挖掘功能集成到数据库引擎中,以便用户可以在数据库中并行执行数据挖掘任务,从而缩短响应时间。
根据所挖掘的知识类型,数据挖掘可主要分为以下类别[2]。
1) 关联规则挖掘通过显示频繁发生的在一起的值条件,发现大型数据项之间有趣的关联模式。一个典型的例子是市场购物篮分析,通过发现顾客'购物篮'中不同商品之间的关系,分析顾客的购买习惯。
2) 分类和预测是确定描述和区分数据类或概念的一组常见特征和模型的过程。模型用于预测类标签不为人所知的对象的类。例如,银行可以根据申请人的特征,使用模型将贷款使用分类为欺诈或潜在业务。为预测股票市场指数和汇率的未来趋势,已经开发了大量的分类模型。
3) 聚类分析将一组大数据分割成子集或群集。每个群集都是数据对象的集合,它们在同一群集中彼此相似,但与其他群集中的对象不同。换句话说,对象基于最大化类内相似性,同时最小化类间相似性的原则进行聚类。例如,群集技术可用于确定风险管理和投资管理的稳定依赖关系。
4) 顺序模式和时间序列挖掘查找一个事件(或值)导致另一个后续事件(或值)的发生。一个例子是,在通货膨胀率上升后,股市可能会下跌。
要挖掘的知识与目标应用和原始数据密切相关。因此,数据挖掘应该与几个其他问题一起考虑,而不是一个等后处理的任务。首先,数据挖掘需要考虑最终应用程序。例如,信用卡欺诈检测和股票市场预测可能需要不同的数据挖掘技术。其次,数据挖掘取决于数据的特征。例如,如果数据是时间序列,则数据挖掘技术应反映时间序列的特征。第三,数据挖掘应利用域模型。在金融领域,有许多发达的模型提供了对特定应用程序非常重要的属性的洞察。许多应用将数据挖掘技术与各种财务和会计模型(例如资本资产定价模型和 Kareken_Wallace 模型)相结合。财务中的数据挖掘涉及应用程序、数据和域模型,这一事实导致一个由三维构成的概念框架,如图 1 所示。
图1:数据挖掘在金融应用的三个维度
第三章 现存的数据挖掘技术
在金融领域使用的各种数据挖掘技术中,我们主要介绍五种常用技术,即神经网络、遗传算法、统计推理、规则归纳和数据可视化。
- 数据挖掘方法回顾
神经网络:人工神经网络是一种通过多个投入的类似并行处理结构模拟人类模式识别功能的计算机模型。神经网络由分布在几个分层层中的基本活动元素(也称为神经元)组成。神经网络由分布在几个分层层中的基本活动元素(也称为神经元)组成。大多数神经网络包含三种类型的层:输入、隐藏和输出。隐藏层中的每个神经元接收来自其前面层中的所有神经元(通常是输入层)的输入后,这些值通过应用的权重添加,并通过激活函数(例如 Sigmoid 函数)转换为输出值。隐藏层中的每个神经元接收来自其前面层中的所有神经元(通常是输入层)的输入后,这些值通过应用的权重添加,并通过激活函数(例如 Sigmoid 函数)转换为输出值。然后,输出传递到下一层中的所有神经元,为输出层提供前馈路径。然后,输出传递到下一层中的所有神经元,为输出层提供前馈路径。两个相邻层中的两个神经元之间的权重通过迭代训练过程进行调整,同时将训练样本呈现给网络工作。两个相邻层中的两个神经元之间的权重通过迭代训练过程进行调整,同时将训练样本呈现给网络工作。它们用于存储捕获的知识,并使其可供将来使用。它们用于存储捕获的知识,并使其可供将来使用。以神经元之间的共性模式为特征,确定权重的方法神经网络以神经元之间的共通模式、确定连接权重的方法和节点激活函数为特征,旨在捕获给定的数据集。神经网络提供了一类工具,这些工具可以大致财务模式的准确程度。
遗传算法:遗传算法的基本思想是,给定一个问题,特定人群的遗传库可能包含解决方案,或更好的解决方案。基于遗传和进化原理,遗传算法通过初始化、选择、交叉和诱变算子的应用,重新修改人工结构群,以获得进化解。它从一组称为总体的解(由染色体表示)开始。从一个种群的解决方案采取,并用于形成一个新的人口。其动机是希望新人口会比旧人口更好。用来形成新解决方案(子种)的解决方案是根据它们的适应性来选择的——它们越合适,它们繁殖的机会就越大。这种演变过程重复多次,直到满足某些条件(例如,人口数量或最佳解决方案的证明)。统计推论:统计为数据分析问题提供了坚实的理论基础。通过低氧验证和/或探索性数据分析,统计技术提供可用于描述大样本可能性的结果。基本统计探索方法包括检查变量分布、检查满足特定阈值的系数的大相关矩阵以及检查多维频率表等技术。专为识别多变量数据集中的模式而设计的多变量探索技术包括聚类分析、因子分析、区分性因素分析、多维缩放、对数线性分析、规范关联、逐步线性和非线性回归、时间序列分析和分类树。其中,鉴别性分析、因子分析、原理组分分析和回归模型经常用于识别金融问题中有影响力的变量或不同变量与金融市场之间的关系。
概率方法假定模型和计算的构造与概率理论是一致进行的。它们允许用户根据可变分布获得结果的概率分布。因此,隐藏马尔科夫模型(HMM)等概率方法已用于投资风险分析等金融应用。
规则归纳:规则归纳模型属于基于逻辑的基于模式蒸馏的数据挖掘方法。基于数据集,这些技术生成一组 if-then 规则,以重新生成显著模式并创建预测模型。这些模型是完全透明的,并完整地解释了它们的预测。
一种常用和众所周知的规则归纳类型是生成决策树的算法系列。决策树通常使用训练数据集构造,由分层组织规则集组成。它是一个简单的重新草书结构,用于表示决策过程,其中新实例被分类为预定义的类之一。在决策树中,实例表示为包含属性-值对列表的特征矢量。每个内部节点代表重新发送决策属性值测试。每个分支表示测试的结果,每个叶节点表示一个决策类。例如,信用卡公司可能具有由描述符或属性组成的客户记录。已知信用,记录可以标记为/分类为良好、中等或差。规则归纳技术可能会生成一个象征性的等级模型,该模型的规则规定'如果信用卡申请人的年收入超过 40000 美元且年龄在 35-55 岁之间且已婚,则应发放该卡。
决策树技术基于分类问题的分而治之方法。它以自上而下的方式工作:在每个阶段,它寻求一个属性,将最佳分治的类分隔开来,然后递归处理拆分产生的分区。基本原则是最大化拆分子集的熵,同时取消递归分区,以最大程度地降低错误分类的预期成本。
数据可视化 — '查看'数据:由于数据的巨大规模和复杂性,数据难以解释。为了实现有效的数据挖掘,在数据探索过程中,将人员的灵活性、创造性和一般知识与当今计算机的巨大存储容量和计算能力相结合,是非常重要的。数据可视化是分析和将数据转换为图形的过程,从而利用了人类视觉系统。这种技术使决策者和分析者能够洞察数据,得出结论,并与数据进行二次直接的交互。它已被证明在探索性数据分析中具有很高的价值,当对数据知之甚少且勘探目标模糊时尤其有用。此外,可视化技术还可以指导研究人员的直觉,并为他们提供更直观的方法来理解再分析。它们保持对大量数据的全球视图,同时仍然保留对小区域感兴趣的看法。
数据可视化技术模型的典型金融应用包括零售银行(例如,产品交叉销售分析、信用风险和电子银行管理)、经济分析、欺诈检测以及投资组合性能分析和优化。共同基金公司,对于前基金,往往产生一个相关矩阵。如果包含 30 个变量的数据集包含 30 行和 30 列,则相关矩阵将包含 900 个元素,元素太多,无法立即查看和解释。相关图像可以容纳大量变量,同时仍提供有用的信息 [3]。
- 数据挖掘方法比较
每种数据挖掘技术都有其固有的局限性和基本假设,因此对于某些应用而言,它更具有选择性,但对其他参数而言,则不是。我们根据八个标准对上述五种数据挖掘技术进行了从非常低到非常高的 5 点尺度的比较:问题编码的易用性、灵活性、自主性、计算复杂性、可解释性、运算能力、可扩展性、和可访问性(见表一)。问题编码的易性是指对问题进行编码的复杂性。灵活性主要涉及处理多变量数据类型和广泛问题的能力。自治性是变量和领域专业知识之间函数关系附带的先前假设的独立性。计算复杂性与基因生成结果所涉及的计算成本相关。可解释性是指能够清楚地解释数据挖掘结果。优化能力涉及实现最佳结果,而不是过早地收敛到劣质解决方案。可伸缩性意味着数据挖掘技术从更大规模的数据集中获取结果所需的额外工作量。可访问性是指现成软件的可用性。
由于数据挖掘面向数据,没有强大的背景,因此数据挖掘模型对数据的变化非常敏感,需要随着数据或情况的变化而不断进行改造。目前,神经网络建模已成为金融应用中最常用的数据挖掘技术。
表1:五种数据挖掘方法的比较
第四章 现存的金融领域的数据挖掘方法应用
金融市场不断生成大量数据。分析这些数据以揭示有价值的信息并支持财务决策,这既是数据挖掘的巨大机遇,也是巨大的挑战。大多数财务数据都是具有噪声、非线性和非前行为的随机时间序列,因此很难建模。时间序列是实数序列,表示以相等时间间隔测量的实际可变值。例如,时间序列可以表示股票价格或汇率的变动。传统的统计分析和测试表明,时间序列具有非随机行为[4]。由于神经网络具有解码非线性时序数据的能力,因此在财务时序预测方面广泛使用。建议在选择挖掘数据时,最好发现可靠的模型,需要长时间训练和大样本。时间序列直率效应指出,具有与模型要预测的数据更靠近的数据的辅助模型会产生更高的质量。在过去十年中,在挖掘时间-时间-时间数据方面进行了广泛的努力。已开发了数以百计的新算法来分段、索引、分类和群集时间序列。
迄今为止,数据挖掘已成为识别财务数据中动态和非线性关系的一个有前途的解决方案。已应用于证券预测、投资组合管理和投资风险分析、破产预测和汇率、金融欺诈检测、贷款付款预测、客户信贷政策等金融领域。分析,等等。在本文中,我们主要关注上述列表中的前五个应用,这些应用在文献中已基本讨论过。
- 预测股票市场
市场上的投资者希望在适当的时候通过购买或卖出他们的投资来最大化他们的回报。由于市场上的投资者希望在适当的时候通过购买或卖出他们的投资来最大化他们的回报。由于股票市场数据是高度时变的,并且通常处于非线性模式,因此预测股票的未来趋势(即上涨、下降或保持稳定)是一个具有挑战性的问题。
股票市场数据是高度时变的,并且通常处于非线性模式,因此预测股票的未来趋势(即上涨、下降或保持稳定)是一个
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237704],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。