摘 要: | 本文基于某酒店平台的脱敏用户大数据,利用Python编程对源数据进行挖掘和分析,发现在常用机器学习算法中总体准确率最高(88.3%)的随机森林模型(Random Forest, RF),在特征群体中的预测效果存在缺陷,即在测试集中实际流失率为极值与中间值(0%、50%、100%)的流失群体预测性能较好,平均误差率在1%以下;而在其余流失群体(10%~40%以及60%~90%)中预测效果较差,平均误差率高达12.5%以上。通过进一步计算发现,总体预测率稍差的支持向量机(Support Vector Machine, SVM)学习模型在某些细分群体中反而具有更高的预测性能,平均误差率在7%以下。综合两类学习模型在不同群体中的优势,可进一步将总体预测的准确率提高至92.3%。该研究结果对于酒店行业具有非常重要的启发意义。相关企业在构建客户流失预警模型时应根据不同的用户群体使用不同的机器学习方法来提高预测的性能;或结合多种方法构建混合预测模型从而更好地理解消费者行为,进行客户关系管理。
|