英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于技术信贷的支持向量机对中小企业的违约预测
Hong Sik Kim, So Yong Sohn
韩国首尔120-749新村洞134号延世大学信息与工业工程系
摘要:在韩国为了资助技术发展潜力巨大的中小企业,多种形式的信用担保已经发布。然而,据报称受资助的中小企业的违约率很高。为了有效管理这些政府资金,建立准确的评分模型来选择有前途的中小企业是至关重要的。本文提供了一种支持向量机(SVM)模型来预测受资助的中小企业的违约情况,并考虑各种输入变量,如财务比率、经济指标和技术评估因素。结果表明,SVM模型的精度性能优于BP神经网络和Logistic回归模型。 预计该模型可以应用于技术型中小企业的各种技术评估及贷款或投资决策。
关键词:支持向量机,违约预测模型,中小型企业
- 引言
随着全球化和全球各国竞争的加剧,技术已成为一个国家产业竞争力和发展的重要因素。由于企业环境的这些变化,许多中小企业(SMEs)需要大量的资金用于技术开发和商业化。然而,大多数中小企业在流通现金流方面陷入财务困境。为了解决资金问题,政府层面的各类技术基金已经基于中小企业的技术记分卡用于促进其经济活动。但是由于不正确的记分卡,选定的中小企业的违约率高于仅根据其财务报表获得贷款的公司的违约率。因此,为中小企业有效管理政府资金建立准确的技术评分模型至关重要。
预测企业违约的方法多种多样。Beaver(1966)最初提议使用金融比率的单变量分析来预测企业违约。Altman(1968),Altman等人(1977),Pompe和Bilderbe(2005)运用多判别分析(MDA)来建立违约预测公式。然而,MDA针对破产和非破产公司都需要一个均匀方差假设。后来对破产审查的研究(Ohlson,1980; Aziz等人,1988; Aziz和Lawson,1989)由于理论和经验两方面的原因而偏爱Logistic回归(logit)超过MDA。logit模型对统计假设较少限制,且能提供更好的经验判别(Zavgren,1983)。然而,传统统计模型的严格假设以及使响应变量与预测变量相关的预先存在的功能形式限制了其在现实世界中的应用。
20世纪80年代,人工智能(AI)技术,特别是基于规则的专家系统、基于案例的推理系统(Bryant,1997; Buta,1994)和机器学习技术,如人工神经网络(ANNs)已成功应用于违约预测(Desai等人,1997; Elmer和Borowski,1988; Jensen,1992; Malhotra和Malhotra,2002; Markham和Ragsdale,1995; Patuwo 等人,1993; Srinivasan和Ruparel,1990; West,2000; Zhang,2000; Zhang等人,1999)。特别是由于非线性非参数自适应的学习性能,ANNs是模式识别和模式分类的强大工具,许多研究已经将人工神经网络与其他分类技术进行了比较。这些研究表明,ANN的精确度要好于其他技术。但是,ANN仍存在一些缺陷。首先,ANN根据研究人员的经验或知识来预处理数据,以选择控制参数。其次,由于过度拟合而导致结果一般化很困难。第三,由于缺乏解释力,ANN难以解释预测结果。
为了克服这些缺陷,本文提出了一种支持向量机(SVM),为支撑技术型中小企业的技术信用担保基金建立违约预测模型。由于许多有吸引力的特性和杰出的使各种问题一般化的性能,Vapnik(1998)建立的SVM变得越来越受欢迎。除此之外,SVM体现了结构风险最小化原则,此原则已被证明优于常规神经网络采用的传统经验风险最小化原则。为了使用支持向量机建立违约预测模型,本研究考虑了各种输入变量,不仅包括中小企业的金融比率和总体特征,还包括技术评估因素。同时考虑了诸如消费者价格指数和汇率等经济指标,因为由于缺乏财政资源,违约率对环境条件变化敏感。为了评估支持向量机的预测精度,本研究还将其与Logistic回归分析(Logit)和反向传播神经网络(BPNs)的性能进行比较。
本文的其余部分安排如下。第二部分引入支持向量法来预测受资助的中小企业的违约情况。第三部分介绍建立违约预测模型的研究数据。第四部分提供经验数据分析的概述。最后,第五部分呈现这项研究的总结以及未来研究的问题。
- 支持向量机
支持向量机(SVM)是基于统计学习理论的分类技术(Vapnik,1995; Vapnik,1998年)。SVM通过将输入向量极度非线性地映射到高维特征空间中来生成二元分类器,即所谓的最佳分类超平面。SVM使用基于支持向量非线性可分类边界构造线性模型来评估决策函数。如果数据是线性可分的,则SVM训练线性机以获得最优超平面,该超平面将数据无差错地分离,并且使得超平面和最近的数据点之间的距离达到最大。最接近最优分类超平面的训练点称为支持向量。
使用SVMs有一些优点(Shin等人,2005):(1)只有两个自由参数可供选择,即上限和内核参数;(2)由于SVM的训练是通过求解一个线性约束的二次问题来完成的,因此SVM的解是唯一的、最优的、全局的;(3)SVMs是基于结构风险最小化原则,这意味着与最小化经验风险的其他分类器相比,这种类型的分类器使实际风险的上限最小化。
基于上述优点,因为SVM是由Vapnik的统计学习理论引入的,所以已经完成了关于其理论和应用的大量研究。应用包括财务时间序列预测(Mukherjee等人,1997; Tay和Cao,2001),营销(Ben-David和Lindenbaum,1997),估计制造业产量(Stoneking,1999),文本分类(Joachims,2002),使用图像的人脸检测(Osuna等人,1997),手写数字识别(Burges和Schokopf,1997; Cortes和Vapnik,1995),医疗诊断(Tarassenko等人,1995)。
接下来,有必要简单描述典型两级分类问题的基本支持向量机概念。我们定义带有标签的训练样本,输入向量,类的值,。对于线性可分的情况,由最优超平面分离二元决策类定义的决策规则,可以由支持向量表示成如下等式:
(1)
其中是结果,是训练样本得到的类值,并且表示内积。该向量对应于输入,向量,为支持向量。在等式(1)中,和为决定超平面的参数。考虑线性不可分的情况,在高维情形下的(1)的表达式为:
(2)
函数定义为各种不同非线性决策平面输入空间生成内积的核函数。核函数有以下几类:
径向基核函数(RBF):
度为d的多项式核函数:
双层神经网络的核函数:
其中;;.
基于这种方法,本研究将缺省问题定义为一个非线性问题,并使用RBF核函数来优化超平面。
-
实例研究
-
- 输入变量描述
-
在本节中,所提议的方法适用于技术信贷基金接受者,其中包括根据1997 - 2002年期间评估的技术得分支持的中小企业。这些数据不仅包含财务比率、公司的一般特征如每名员工的销售额、公司的历史、公司是否在股市上市,还包括技术评估分数。获取数据的特定描述显示在表1-4。
表1不仅展示了一般企业的属性,还说明了中小企业的特征,例如它是否为韩国中小企业厅(SMBA)认证的风险投资公司()。 考虑这些特征以建立违约预测模型。一些中小企业的特点包括以下几点。首先,本研究将“股票市场上市与否”作为一个变量来建立违约预测模型,由于在如KOSPI韩国股票价格指数(KOSPI)、韩国证券交易商自动报价(KOSDAQ)或其他股票市场上市的中小企业的财务状况要比未上市企业更稳定,如果申请人的中小企业获得了风险企业的认证,则更容易从政府相关的融资服务中获得支持。另外,当一家中小企业由外部组织审计时,这表明其财务状况比未审计的情况更健康。对于中小企业的违约预测也考虑了一些变量:中小企业是否由外部审计组织,中小企业是否拥有专利,中小企业是否是合资公司的一部分,以及中小企业是否由专家经理管理。 这里的专家经理既不是创业者,也不是创始人,而是具有相关领域专业经验的经理。
表1 中小企业特征描述
表2 金融比率描述
表3技术评估因素和用于记分卡的16个属性
表4经济指标
表2显示了各种金融比率,并在建立违约预测模型时考虑这些比率。一般而言,财务比率代表了业务的许多方面,是财务报表分析的组成部分。财务比率根据业务的财务方面进行分类,是用于衡量的比率。变现能力比率衡量现金支付债务的可用性。经营比率衡量企业将非现金资产转换为现金资产的速度。债务比率衡量公司偿还长期债务的能力。盈利能力比率衡量了公司对其资产的使用情况,并控制其开支以产生可接受的回报率。还有Altman(1968)编制了一份22个金融比率的表,将它们分为五类(变现性,盈利能力,杠杆率,偿付能力和经营能力)。Van- Horne(1989)根据变现能力比率、债务比率、覆盖率和盈利能力比率评估财务业绩。此外,Weston和Tomas(1985)在杠杆率、经营比率、增长率和估值比率方面考虑财务业绩。根据以往的文献综述,我们从经营能力、盈利能力、变现能力和增长率等方面选取9个变量。
表1和表2中的变量已被用于为一般公司构建违约预测模型。然而,由于本研究的目的是为技术型中小企业建立以政府技术信用担保基金为支撑的中小企业违约预测模型,因此有必要增加反映中小企业技术特征的变量。同时,经济变量被认为可以适应其在违约方面的影响,如表3和表4所示。
技术记分卡通常是检查拥有许多技术相关属性的技术公司。根据评估和技术评估机构的目的,这些多属性的使用方式会有所不同。尽管如此,多属性通常由经理的诚信度、技术水平、技术可销售性、技术盈利能力和外部环境因素等因素组成。如表3所示,采用16项技术属性构建技术授信对象的违约预测模型(Sohn等人,2005,2007; Sohn和Kim,2007; Jeon和Sohn,2008; Kim和Sohn,2007; Moon和Sohn,2008)。
表4展示了用于构建中小企业违约预测模型的各种经济指标。公司违约与经济状况密切相关,特别是中小企业对经济状况变化更为敏感。因此,将一些经济指标看作输入变量。确定哪些经济指标与中小企业违约相关至关重要。我们考虑使用10个经济指标,这些指标由韩国国家统计局(KNSO,2007)提供,如表4所示。
这些指标不仅是基于与在相关领域(韩国技术信用担保基金,小型和商业公司,中小企业管理局)工作的专家的讨论而选择的,且依据之前的研究(Ceylan和Ozturk,2004)。首先,中小企业总经营环境指数,经济状况指数,中小企业经营指数等三项指标均适合反映短期经济状况。其次,商业调查指数和KOSPI用于预测微观经济状况。第三,三年国债收益率和韩元兑美元汇率与中小企业技术型信贷关系密切。最后,总体经济运行指数,消费者价格指数和石油价格是宏观指标,用于反映中小企业的经济活动。
-
-
- 数据预处理
-
本节将介绍用于构建违约预测模型的数据预处理。清除缺失案例后,仍有4590个案例。其中违约案例907件(19.76%),非违约案例3683件(80.24%).这里,如果资助的中小企业对应以下情况之一则宣布违约:延迟偿还,发放错误支票,产品商品化失败,管理人员信誉不佳,在收到技术资金三年内关闭业务或公司重组程序。除此之外,其余案件被视为非违约。
一般来说,中小企业的金融比率可能会受到一定程度误差的污染,因为大多数技术评估的中小企业表现出较弱的金融稳定性。所以如果这些数据没有清除或消除,建立的模型可能会不稳定。因此,为了构建更加准确的违约预测模型,我们排除了每个金融比率最高1%和最低1%的异常情况。消除这些异常数据后,仍有3827例。其中,违约案例724件(18.92%),非违约案例3103件(81.08%)。 如数据所示,缺省情况下的数量比非缺省情况下的情况要少。因此,我们进行了过抽样:724个违约情况和724个非违约情况。数据集被任意分成两个子集,大约80%的数据用于训练集,20%用于验证集。SVM的训练数据完全用于构建模型,验证数据用于检验使用未用于开发模型的数据的结果。在反向传播神经网络的情况下,数据被分成三个子集:60%的训练集,20%的验证集和20%的测试数据集。
此外为了验证数据的分级,折交叉验证程序(Weiss和Kulikowski,1991年)被应用。在倍交叉验证中,原始样本被分成个子样本。在个子样本中,保留一个子样本作为用于测试模型的验证数据,而剩余的-1个子样本作为训练数据。随后交叉验证过程重复次(折叠),每个子样本仅用作验证数据一次。对折叠的结果进行平均(或以其他方式组合)以产生单一估计。根据这个程序,数据被分成5个子样本,且验证数据集的个结果的平均值即是违约预测模型的准确度。
-
-
- SVM模型的构建
-
使用SVM构建违约预测模型的最重要的因素之一是选择内核函数。一般来说,核函数有多种类型,如径向基函数(RBF)、多项式、双层神经网络等。本文将RBF核函数作为违约核函数,主要有四个原因(Hsu等人,2004):(1)这种内核可以将输入空间的非线性边界映射到更高维的特征空间;(2)在性能方面,Keerthi和Lin(2003)得出具有参数的线性内核函数同具有参数的RBF内核函数有相同的性能;(3)当检查超参数的数量时,多项式核函数具有比RBF核函数更多的超参数;(4)由于核函数值介于0
全文共14961字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10085],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。