网络爬虫技术的概述与研究
网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络的迅速发展,万维网成
为大量信息的载体, 如何有效地提取并利用这些信息成为一个巨大的挑战。 搜索
引擎 (Search Engine) ,例如传统的通用搜索引擎 AltaVista ,Yahoo!和 Google
等,作为一个辅助人们检索信息的工具成为用户访问 web的入口和指南。但是,
这些通用性搜索引擎也存在着一定的局限性。 为了解决上述问题, 定向抓取相关
网页资源的聚焦爬虫应运而生。 聚焦爬虫是一个自动下载网页的程序, 它根据既
定的抓取目标,有选择的访问万维网上的网页与相关的链接, 获取所需要的信息。
本文将对网络爬虫技术及其原理进行简单的介绍,并且给出实例。
- 2021-04-20
- 阅读340
- 下载0
- 6页
- pdf