

实证研究以Windows XP为平台,数据存储在MS SQL Server 2000中,实验工具为WEKA数据挖掘软件。WEKA是由新西兰Waikato大学的研究人员开发的一个数据挖掘工具(http://www.cs.waikato.ac.nz/ml/weka/),目前的最新版本是3.4.7。其中包含了大量的数据挖掘算法,能进行数据的预处理和分类、聚类及关联规则分析,也具备较好的可视化展示能力,十分实用。
4.3 实证结果分析
在信用卡的欺诈识别研究中,存在两类错误,一类是把欺诈交易错误预测为非欺诈交易,可以称之为第一类错误或者False Negative错误,另一类是把非欺诈交易错误预测为欺诈交易,称之为第二类错误或False Positive错误。从图1的混淆矩阵看,第一类错误率(False Negative Rate)为 ,第二类错误率(False Positive Rate)为 。由于仅用准确率 只能反正模型的总体准确率,而不能全面反映模型对两类样本的不同预测能力,因此本文采用两类错误率来评估模型。
图1 混淆矩阵
模型训练完成后在测试集上进行测试,结果如表1所示。
表1 模型测试结果
第一类
错误率第二类
错误率两类错误率
平均
C4.5单分类器14.49%18.50%16.50%
AdaBoost组合分类器9.25%8.55%8.90%
实证结果表明,基于AdaBoost组合分类器的欺诈识别模型比基于C4.5决策树单分类器识别模型具有更精确的预测能力,两类错误率都有较大幅度的下降。
5 结论与展望
实证研究表明,基于客户资料和交易相关数据并利用AdaBoost算法建立的信用卡欺诈识别模型能较为准确的预测交易是否为欺诈交易。如果基于这一模型建立银行的信用卡欺诈识别系统,就能使银行在信用卡交易发生后的较短时间里预测出交易的欺诈可能性,从而能有目的的采取一系列反欺诈策略,在欺诈者造成较大损失之前就积极加以防范,有效的降低银行的风险。
但是,本文提出的欺诈识别模型还存在一定的不足之处,需要在今后的研究中加以改进。首先,本文对样本不对称分布的处理采取了减少多数法,这样虽然能得到一个分布对称的样本集,但是损失了很多多数样本的信息。其次,本文没有考虑到两类错误的不同代价问题。在欺诈识别问题中,将欺诈交易预测为非欺诈交易和将非欺诈交易预测为欺诈交易在代价上相差很大,这就要求模型在第二类错误率相对合理的情况下具有极低的第一类错误率。
参考文献
[1] 陈雷. 国际信用卡欺诈与预防[J]. 中国信用卡, 2004, (6): 43-47
[2] 苗绘. 信用卡欺诈及其防范[J]. 金融教学与研究, 2005, (4): 31-35
[3] 陈建. 信用卡的反欺诈管理[J]. 中国信用卡, 2005, (8): 20-24
[4] E. Aleskerov, B. Freisleben, B. Rao. CARDWATCH: A Neural Network-Based Database Mining System for Credit Card Fraud Detection. Proc. of the IEEE/IAFE on Computational Intelligence for Financial Engineering, 1997: 220-226
[5] M. Syeda, Y. Zhang, Y. Pan. Parallel Granular Neural Networks for Fast Credit Card Fraud Detection. Proc. of the 2002 IEEE International Conference on Fuzzy Systems, 2002
[6] 盛昭瀚,柳炳祥. 一种基于粗集神经网络的欺诈风险分析方法[J]. 应用科学学报, 2003, (2): 209-213
[7] A. Kokkinaki. On Atypical Database Transactions: Identification of Probable Frauds using Machine Learning for User Profiling. Proc. of IEEE Knowledge and Data Engineering Exchange Workshop, 1997: 107-113
[8] T. G. Dietterich. Ensemble Methods in Machine Learning[A]. In: Springer-Verlag. Workshop on Multiple Classifier Systems.Lecture Notes in Computer Science [C]. 2000, 1857(1): 1-15
[9] L Xu, C. Krzyzak, C. Suen. Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition [J]. IEEE Trans on Systems, Man and Cybernetics, 1992, 22(3): 418- 435 转贴于 酷文网-论文下载中心 http://www.coolwen.net