百度的大数据实践 |
| |
引用本文: | 李敏,陈尚义,林仕鼎.百度的大数据实践[J].金融电子化,2013(6):35-36. |
| |
作者姓名: | 李敏 陈尚义 林仕鼎 |
| |
作者单位: | 百度公司 |
| |
摘 要: | 互联网搜索引擎从第一天开始就是大数据应用,互联网产生了海量数据,如何从中找到需要的信息就是一个大数据的命题。搜索引擎正好解决这一问题,网络爬虫首先从数以千亿级的网页中搜集信息,建立网页数据库。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户查询语句相符的网站,便采用排序算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量综合计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
|
关 键 词: | 网页链接 百度 搜索引擎 数据应用 海量数据 网络爬虫 查询语句 匹配程度 |
本文献已被 维普 等数据库收录! |
|