摘 要: | 针对金融借贷数据存在的较严重的类别不平衡问题,构建基于RUSBoost算法的违约风险预测模型。作为一种集成学习方法,RUSBoost算法利用欠采样实现了训练集的类别均衡,同时又通过对基学习器的独立采样有效克服了因欠采样而造成的信息丢失问题,从而实现了对类别不平衡数据的较强适应能力。基于某网络借贷平台的金融大数据,首次将RUSBoost算法应用于违约风险预测,同时也将随机森林、决策树以及支持向量机等数据挖掘方法分别应用于违约风险预测问题,并与传统的Logistic回归方法和最小二乘模型进行对比分析。从实验结果来看,绝大部分数据挖掘模型的预测性能要明显优于传统模型,而基于RUSBoost算法的违约风险预测模型又明显优于其他数据挖掘模型。
|