酷文首页  
站内搜索:
网站地图 | RSS订阅 | 收藏本站
经济论文
证券金融
工商管理
会计审计
法学论文
医药论文
社会论文
教育论文
计算机论文
艺术论文
哲学论文
财政税收
财务管理
公共管理
理学论文
政治论文
文学论文
工学论文
文化论文
实用文档
应用文
自考成考
演讲稿
法律文书
子栏目导行↓
网站赞助商↓
本类热点↓
本类更新↓
热门标签↓
网摘收藏↓

组合分类器的信用卡欺诈识别

作者:网络
来源:论文网
点击:
载入中...
加入时间:2008-05-09
字体大小:[  ]

      由于欺诈交易只是少数,因此样本集中存在着两类样本的不对称分布(Skewed Distribution)问题。首先要对样本进行处理,并进行必要的数据预处理过程,然后再进行模型的训练。
AdaBoost是通过弱分类器在样本集上的多次训练来得到组合分类器的,这里选择C4.5决策树算法作为其中的弱分类算法。为了比较AdaBoost算法与单分类器的分类效能,本文分别利用C4.5算法和C4.5+AdaBoost来建模,得到一个基于C4.5算法的单分类器和一个基于AdaBoost的组合分类器。
4.2   实证过程
      本文以国外某商业银行的信用卡真实交易数据为研究对象,从数据库中抽取679位信用卡持有人的21,858条交易记录构成样本集。其中非欺诈交易19948笔,欺诈交易1910笔,分别将其Fraud属性标记为0和1。仅根据交易的相关信息是很难准确判断是否为欺诈交易的,因为消费习惯和模式与持卡人的特征属性有较大的关联关系。因此本文将描述持卡人特征的一些属性也参与建模,这样每个样本就有了62个属性。再根据业务经验,去掉与欺诈无关或相关性极小的属性,最终确定35个相关属性作为模型输入。
      从样本数量分布上看,两类样本存在着严重的不对称分布问题,如果直接在这样一个样本集上进行模型训练,会使模型偏向非欺诈交易,识别欺诈交易的能力变差。为此,这里采用减少多数样本(Under-sampling)的方法,即从非欺诈交易样本中随机选取与欺诈交易数量大致相当的部分样本,来与欺诈交易样本组成一个两类样本数量相当的样本集。同时,将这一样本集按照7:3的比例分成训练集和测试集,分别用作模型的训练和测试。
   

  实证研究以Windows XP为平台,数据存储在MS SQL Server 2000中,实验工具为WEKA数据挖掘软件。WEKA是由新西兰Waikato大学的研究人员开发的一个数据挖掘工具(http://www.cs.waikato.ac.nz/ml/weka/),目前的最新版本是3.4.7。其中包含了大量的数据挖掘算法,能进行数据的预处理和分类、聚类及关联规则分析,也具备较好的可视化展示能力,十分实用。
4.3   实证结果分析
      在信用卡的欺诈识别研究中,存在两类错误,一类是把欺诈交易错误预测为非欺诈交易,可以称之为第一类错误或者False Negative错误,另一类是把非欺诈交易错误预测为欺诈交易,称之为第二类错误或False Positive错误。从图1的混淆矩阵看,第一类错误率(False Negative Rate)为 ,第二类错误率(False Positive Rate)为 。由于仅用准确率 只能反正模型的总体准确率,而不能全面反映模型对两类样本的不同预测能力,因此本文采用两类错误率来评估模型。

图1 混淆矩阵
      模型训练完成后在测试集上进行测试,结果如表1所示。
表1  模型测试结果
第一类
错误率第二类
错误率两类错误率
平均
C4.5单分类器14.49%18.50%16.50%
AdaBoost组合分类器9.25%8.55%8.90%


       实证结果表明,基于AdaBoost组合分类器的欺诈识别模型比基于C4.5决策树单分类器识别模型具有更精确的预测能力,两类错误率都有较大幅度的下降。
5   结论与展望
      实证研究表明,基于客户资料和交易相关数据并利用AdaBoost算法建立的信用卡欺诈识别模型能较为准确的预测交易是否为欺诈交易。如果基于这一模型建立银行的信用卡欺诈识别系统,就能使银行在信用卡交易发生后的较短时间里预测出交易的欺诈可能性,从而能有目的的采取一系列反欺诈策略,在欺诈者造成较大损失之前就积极加以防范,有效的降低银行的风险。
      但是,本文提出的欺诈识别模型还存在一定的不足之处,需要在今后的研究中加以改进。首先,本文对样本不对称分布的处理采取了减少多数法,这样虽然能得到一个分布对称的样本集,但是损失了很多多数样本的信息。其次,本文没有考虑到两类错误的不同代价问题。在欺诈识别问题中,将欺诈交易预测为非欺诈交易和将非欺诈交易预测为欺诈交易在代价上相差很大,这就要求模型在第二类错误率相对合理的情况下具有极低的第一类错误率。


参考文献
[1]      陈雷.   国际信用卡欺诈与预防[J].   中国信用卡, 2004, (6): 43-47
[2]      苗绘.   信用卡欺诈及其防范[J].   金融教学与研究, 2005, (4): 31-35
[3]      陈建.   信用卡的反欺诈管理[J].   中国信用卡, 2005, (8): 20-24
[4]      E. Aleskerov, B. Freisleben, B. Rao. CARDWATCH: A Neural Network-Based Database Mining System for Credit Card Fraud Detection.  Proc. of the IEEE/IAFE on Computational Intelligence for Financial Engineering, 1997: 220-226
[5]      M. Syeda, Y. Zhang, Y. Pan.   Parallel Granular Neural Networks for Fast Credit Card Fraud Detection.    Proc. of the 2002 IEEE International Conference on Fuzzy Systems, 2002
[6]      盛昭瀚,柳炳祥.   一种基于粗集神经网络的欺诈风险分析方法[J].   应用科学学报, 2003, (2): 209-213
[7]      A. Kokkinaki.  On Atypical Database Transactions: Identification of Probable Frauds using Machine Learning for User Profiling.  Proc. of IEEE Knowledge and Data Engineering Exchange Workshop, 1997: 107-113
[8]      T. G. Dietterich.  Ensemble Methods in Machine Learning[A].  In: Springer-Verlag. Workshop on Multiple Classifier Systems.Lecture Notes in Computer Science [C]. 2000, 1857(1): 1-15
[9]      L Xu, C. Krzyzak, C. Suen. Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition [J].  IEEE Trans on Systems, Man and Cybernetics, 1992, 22(3): 418- 435 转贴于 酷文网-论文下载中心 http://www.coolwen.net


共3页: 上一页 [1] 2 [3] 下一页

网摘收藏:
 -> 在百度中搜索:组合分类器的信用卡欺诈识别
 -> 在Google中搜索:组合分类器的信用卡欺诈识别
免责声明 | 关于我们 | 广告联系 | 友情链接 | 网站地图 | 共同合作
免费论文 毕业论文 毕业论文范文 酷文网(www.coolwen.net) 版权所有 coolwen.net 2007,All Rights Reserved
E-mail:hui_love#tom.com(为防止垃圾邮件请把#换成@) 点击这里给我发消息 点击这里给我发消息
湘ICP备07003917号