Big data based fraud risk management at Alibaba
Jidong Chen, Ye Tao, Haoran Wang, Tao Chen
随着移动互联网和金融的发展,欺诈风险具有了各种形式和规模。本文将在大数据下介绍阿里巴巴欺诈风险管理。阿里巴巴建立了基于实时大数据处理和智能风险模型的欺诈风险监控管理系统。它直接从用户行为和网络的大量数据中捕获欺诈信号,使用机器学习实时分析欺诈信号,准确预测不良用户和交易。为了将防范欺诈风险的能力扩展到外部客户,阿里巴巴还建立了一个名为AntBuckler的大数据欺诈防范产品。 AntBuckler旨在通过灵活性和智能为在线商户和银行识别和防止所有类型的恶意行为。通过结合阿里巴巴和客户的大量数据,AntBuckler使用RAIN分数(风险评估分数)引擎来量化用户或交易的风险水平以防止欺诈行为。它还具有用户友好的可视化用户界面,包括风险评分,主要原因和欺诈关联。
关键词:欺诈检测和预防; 风险模型; 恶意行为; 风险评分; 大数据分析
1、.简介
对于大型,复杂和非结构化的任何数据集合,大数据都是一个全面的术语,因此使用传统数据处理应用程序难以处理。大数据的“规模”是动态的,并且不断增长,截至2012年,从撰写文章时的几十TB到数PB的数据不等。它也是一套技术和技术,用于在可容忍的时间内(维基百科)分析,捕获,管理,管理和处理数据。大数据有许多不同的用途,例如欺诈风险管理,网络显示广告,呼叫中心优化,社交媒体分析,智能交通管理等等。由于数据技术无法存储如此庞大规模的数据,或者处理技术无法处理大量工作量,或者以及时实施解决方案的成本过高,因此大多数这些分析解决方案之前不可能实现。
随着业务需求的出现,阿里巴巴采用了优化的系统和平台,并开发了先进的方法学和方法来处理日产量100亿的水平。它从2009年的RAC数据平台开始,通过GP(Green Plum,EMC产品,请参阅EMC2)和Hadoop(请参阅7),现在正在使用ODPS。数据处理和分析也从T 1模式1改进到接近实时模式。通过调整大数据技术,阿里巴巴强调了欺诈风险管理领域取得的进展。它发明了一个实时支付欺诈预防监控系统,称为CTU(反恐部队)。 CTU成为中国最先进的在线支付诈骗管理系统之一,可以跟踪和分析帐户或用户的行为,识别可疑活动,并可以基于智能仲裁应用不同级别的治疗。欺诈风险模型是CTU2(反恐怖主义中心)的支持层之一。他们使用统计和工程技术来分析中间人(账户,用户或设备等)的汇总风险。生成详细的属性作为输入。不同的算法是评估这些属性和欺诈活动的相关性,并将好的和坏的分开。验证和调整是为了确保模型适用于不同的场景。阿里巴巴的大数据产生了成千上万的属性,并且构建了欺诈风险模型来处理各种欺诈活动。这些基于大数据的欺诈模式在阿里巴巴的几乎每个程序中都被广泛用于监控欺诈行为,例如开户,身份验证,下单,交易前后,取款等。构建安全的支付环境阿里巴巴决定将这种能力扩展到外部用户。一个用户友好的产品,被称为AntBuckler。 AntBuckler是一款帮助商家和银行识别网络犯罪风险和欺诈活动的产品。并根据大数据分析生成风险评分(RAIN评分),并提供给商家和银行以说明风险水平。在本文中,我们展示了阿里巴巴应用大数据技术并将这些技术应用于欺诈风险管理模型和系统。我们还介绍了阿里巴巴使用的大数据欺诈防范产品AntBuckler的方法和应用。在本文的其余部分安排如下。第二部分介绍阿里巴巴的大数据应用和基本计算流程。第3部分详细解释了阿里巴巴的欺诈风险管理和欺诈风险建模。第4节提供了对AntBuckler的解释。我们在第5节中总结。
2、阿里巴巴的大数据应用
阿里巴巴在过去的10年里发展迅速。 2005年,日交易量每天不到1万。 2013年11月11日达到1.88亿。图表1显示,阿里巴巴的交易量每天从2005年到2013年不等。随着业务呈指数级增长,数据计算,处理系统和数据存储也必然发生变化。它于2009年通过GP和Hadoop从RAC的数据计算平台(Oracle Real Application Clusters(请参阅Oracle白皮书1))开始,现在正在使用ODPS。数据处理和分析也从T 1模式改进为实时模式,特别是阿里巴巴的风险防范,每次交易的欺诈检查可控制在100毫秒(毫秒)以内。此外,数据来源从单个单位数据扩展到内部组数据和外部局数据的组合。图表2显示,自2009年以来,阿里巴巴的大数据计算流程得到了广泛的推进。阿里巴巴的数据不仅来自淘宝,天猫和支付宝,还来自高德地图等合作伙伴。来自各种渠道的数据构建了一个集成的数据平台,业务场景中的平台也大大延伸。市场营销使用数据分析来准确定位用户并亲自提供客户服务。商家和金融公司需要专业的数据分类来筛选出有价值的客户。智能客户服务可以通过全面的数据平台高效,高效地解决用户的请求和投诉。网上支付服务提供商领导者阿里巴巴在线支付服务和系统建立了一个欺诈风险管理平台,确保买卖双方交易快速安全。阿里巴巴在信用评分和保险价格以及其他类型的业务上广泛处理大数据。
3.阿里巴巴欺诈风险管理
3.1。欺诈风险框架
由于大数据,阿里巴巴的欺诈风险管理与传统金融和银行系统完全不同。为了处理实时欺诈,逐渐开发新的工程方法来处理这种数据量。除硬件系统之外,还构建了风险防范框架以支持新的方法和算法。有几种不同的风险防范框架。阿里巴巴使用的一个基本的欺诈风险框架称为多层风险防范框架。图3说明阿里巴巴在支付宝系统中使用的多层次风险防范框架。这个系统共有五层。在阿里巴巴,有5层防止交易欺诈。这五个层次是:帐户检查、设备检查,活动检查、风险策略和手动审查。一个欺诈者可以通过第一层帐户检查,然后还有四层阻止欺诈者。交易开始时,第一层是账户支票,其中包括买家账户信息和卖家账户信息。第一层帐户检查的几项检查设计为问题:买方或卖方帐户之前是否有不良/可疑活动?买家帐户是否有被盗等可能?极度可疑的交易可能会被拒绝以保护真正的买家,或者在这种情况下可能触发额外的真实方法来双重确认。第二层是设备检查,其中包括在同一设备上的IP地址检查和操作检查。同样,对第二层设备检查的检查是通过传递几个问题来设计的:是否有大量的来自同一设备的事务量化?任何交易都来自糟糕的设备?第三层是活动检查,也称为行为检查,用于检查历史记录,买方和卖方行为模式,账户,设备和方案之间的关联。检查第三层活动检查的设计也是问题:买方或卖方账户是否链接到已识别的不良账户?第四层是风险策略,它做出最终判断并采取适当的行动。检查第四层风险策略旨在根据严重性级别汇总以前检查的所有结果。由于明显的欺诈行为,一些交易被发送到自动决定。一些灰色的案例被发送到手动审查。一方面,支付宝希望为双方提供更好的服务和体验。另一方面,支付宝不想误判任何案件。如果没有有力的证据,可疑案件将在最后一层人工审查中进行人工审查,其中会显示更多证据,并且可能会打电话来验证或提醒买方或买方或卖方。阿里巴巴欺诈风险管理与传统金融和银行系统的“那个”之间的另一个主要区别是风险派对。客户被评估为银行系统的主要风险方。在阿里巴巴,有三层风险派对。这三个层次分别是客户级别,帐户级别和情景级别。参见图4.阿里巴巴的风险欺诈防范无论是买方还是卖方,不管是买方还是卖方,无论这些账户是否对大公司或单个人都有声望,无论这两种情况是否在开户期间发生这些活动或取款。
3.2、 CTU--防欺诈监测系统
CTU是一种实时支付欺诈预防监控系统,可以跟踪和分析账户或用户的行为,识别可疑活动并基于智能仲裁应用不同级别的治疗。第一版于2005年8月1日发布。该系统由支付宝风险控制团队独立开发。当时,它更多地关注大额交易调查,可疑退款等。现在它延伸到洗钱,营销欺诈,账户和卡被盗/丢失以及现金货币化。此外,它是一个24小时监控系统,可随时提供全面保护。事件发生时,它通过CTU进行判断。事件被定义为用户登录,更改配置文件,启动交易,从阿里巴巴向其他银行账户等提款。有数百种事件。可疑事件触发了CTU背后的实时计算模型和规则,并且在100 ms内CTU将结果返回给风险决策。如果CTU返回的风险很低,则该事件通过以继续其运作。如果这是一个高风险,货运单元将指示停止或进一步的挑战步骤来继续这一过程。图5说明了CTU操作过程。
3.3、欺诈风险建模
支持CTU判断的数据来自以往的案例,用户行为,链接关系等。建立风险模型来分析欺诈者的欺诈模式,欺诈者之间的关系,一群好用户和一组坏用户之间的不同行为。建立风险模型时需要考虑几个因素。偏差和差异通常共同关注以平衡风险模型的有效性和影响。偏差是衡量模型如何适合风险的一个因素,如何准确地找到账户或交易的风险。方差是衡量一个模型是否稳定,是否能够维持相对较长的业务生命周期。负面的正面率也被称为错误的覆盖率,是衡量一个模型的准确度。高负面的阳性率会给公司带来巨大的业务压力和不良的用户体验。此外,可解释性对于向用户解释模型为其账户或交易赋予这样的风险水平的理由是必要的。在大数据时代,除了上面提到的因素外,数据科学家一直在为数据缺陷,数据稀疏性和数据偏度而战。阿里巴巴经过反复审议,模型建立过程也相对比较成熟。首先选择白色和黑色样本。白色样本是很好的风险派对。黑色样本通常被认为是不好的冒险派对。一个好的模型可以最大程度地区分白色和黑色样本。收集两个样本的行为数据和活动数据,以从抽象聚合变量中生成原始变量。通过测试,一些变量得到有效验证。它们可以最终用于建模。根据我们使用阿里巴巴大数据的建模经验,决策树C5.0和随机森林有更好的性能来平衡偏差和差异。一个明显的原因是他们不假定数据分布,因为它们是算法模型而不是数据模型。当一个模型能够更好地分离样本中的好坏时,该模型基本上适用于处理。但是,为了确保它适用于不同的场景,验证也很重要。如果一个模型在测试和验证数据时能够有效且高效地运行,就可以启动该模型。然后,需要在生产环境中部署欺诈风险防范模型,并结合其他策略和规则在CTU中使用。
3.4、 RAIN评分风险模型
RAIN是一种风险模型。 RAIN代表活动,身份和网络风险。基本上,一个对象(一个用户,一个账户,甚至一张卡片)的风险由变量,活动,身份和网络三个维度组成。图6说明了RAIN评分的三个维度。首先选择数百个变量来解释对象的状态和行为。基于欺诈风险模型的测试,验证和验证,选择并保存变量。根据这三个维度内变量的不同权重生成RAIN分数。根据不同的风险情况,变量的变量和权重可能会有所不同。例如,对于卡片被盗情况,可以选择更多的身份变量并且权重更高。而对于信贷投机情景,可以选择更多的网络变量并给予更高的利率。变量的权重通过不同的机器学习算法进行训练,如逻辑回归。
3.5、欺诈风险
检测中基于网络的分析示例图论(基于网络的分析)是一种应用的数学主题,通常应用于社交网络分析(参见Wasserman)。 Facebook,Twitter将图论应用于他们的社交网络分析。基于网络的分析在风险控制中发挥了新的作用。现在的欺诈者是恶作剧。他们知道在线风险模型正在不断检查欺诈账户是否来自同一名称,地址,电话和信用卡等。因此,他们尝试新的方法来隐藏连接。因此,引入基于网络的分析来揭示该领域的连接。例如,如果每个帐户都被视为一个节点,则基于网络的分析将定位不同节点之间的边缘(如果它们属于自然人)。如果有合理的方法来定义不同节点之间的边缘,可以公开一些有趣的组。在图7中,红色节点代表帐户,绿色节点是这些帐户的详细配置文件信息,例如启用的IP,电话号码,姓名,地址等。如果某个帐户(红色节点)具有详细的配置文件信息(绿色节点)网络分析在这个红色和绿色节点之间绘制一条线来显示该关系,并且该线是边缘。图7说明了两个组都有自己的启用IP的网络分析。然而,两组中的一些账户共享相同的绑定电话号码。这暴露了两组之间的联系。另一个例子如下图8
图8显示,一个帐户与左侧组共享相同的注册IP并注册设备占用空间。它还与正确的组共享相同的名称和信息编号。这是证明两组账户之间关系的有力证据。以上两个例子只是一个简单的例子。在现实世界中,连接非常复杂。我们必须使用并行图算法和特殊图形存储来处理庞大的网络连接图。中间节点(来自基于网络的分析的概念,参见Freeman)在寻找不同账户的连接中发挥重要作用,其中中介节点是网络分析中使用的中介中心。现在连接广泛用于判断账户关系,这有效地防止欺诈者建立自己的网络。
4. AntBuckler - 一款基于大数据的防欺诈产品
为了构建安全清洁的支付环境,阿里巴巴决定扩大其对外部用户的风险防范能力。基于大数据的欺诈管理产品被构建并称为AntBuckler。本产品完全由支付宝开发。 AntBuckler是一款帮助商家和银行识别网络犯罪风险和欺诈活动的产品。我们发现商家通常处理类似的欺诈模式。一个例子是营销计划欺诈。商家经常向新用户提供现金奖励或凭证证书以扩大其用户群。欺诈者通常借此机会创建数百个不同的账户。对于商家来说,营销资源并没有给予正确的用户群。对于优秀的用户,他们无法获得现金奖励或凭证证书。欺诈者也可以以更高的价格出售他们的账户。这不仅损害了商户的品牌形象和声誉,还混淆了市场和潜在客户。 Antbuckler使用RAIN模型引擎并生成风险评分(RAIN评分)来量化风险等级。得分范围从0到100.更高,更危险。它也具有用户友好的可视化。最重要的原因是重量更高,颜色更亮。通过帐户,电子邮件,电话,卡片等连接,使用基于网络的视图呈现。见表1.表1是一个风险账户的主界面。该界面提供了详细的帐户信息,如姓名,登录电子邮件和注册时间。 RAIN得分与多彩的酒吧一起显示。绿色意味着更安全,红色意味着更高风险。操作仪表板告诉AntBuckler判断了多少个帐户,识别了多少个帐户,风险帐户分布在哪里等。参见表2.表2是操作仪表板的示例。
5.结
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[282141],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。