摘 要: | 本文针对资本市场中普遍存在的上市公司财务欺诈问题,在财报数据中融入财经新闻文本特征,并提取时序信息,为上市公司财务欺诈预警提供新途径。以结构化的财报数据和非结构化的新闻文本数据为对象,在结构化数据特征中融入新闻文本的主题特征、观点特征、情绪特征和欺诈特征,然后提取时序信息,并基于树集成的方法实现上市公司财务欺诈预警。本文融合预警欺诈行为的方法在CSMAR财报数据集和爬取的新浪财经数据集上达到了86.1%的准确率和86.5%的召回率,融入新闻特征和时序信息后比单纯地采用财报数据特征的准确率提高了8%。新闻文本特征可以作为财报数据的有效补充,且在财报数据和新闻文本数据中引入时序信息有利于提高上市公司财务欺诈的预警性能。
|