一个基于现实世界的大型Web参照数据集——UK2006 Datasets的初步研究 |
| |
引用本文: | 曾刚,李宏.一个基于现实世界的大型Web参照数据集——UK2006 Datasets的初步研究[J].企业技术开发,2009,28(5). |
| |
作者姓名: | 曾刚 李宏 |
| |
作者单位: | 曾刚,ZENG Gang(中南大学,信息科学与工程学院,湖南,长沙,410083;湖南中医药大学,计算机系,湖南,长沙,410208);李宏,LI Hong(中南大学,信息科学与工程学院,湖南,长沙,410083)
|
| |
摘 要: | 文章介绍了WEBSPAM-UK2006数据集,一个大型的基于现实世界的,人工评判过一些垃圾行为的web数据集合,详细的对数据集的构成进行了分析,对数据集采用Python进行了初步的预处理,为以后在反垃圾网页行为方面的算法和判定研究提供了非常有意的经验和参考。
|
关 键 词: | 搜索引擎作弊 Web数据集 链接分析 Web图 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|