网络爬虫技术的概述与研究

网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络的迅速发展,万维网成 为大量信息的载体, 如何有效地提取并利用这些信息成为一个巨大的挑战。 搜索 引擎 (Search Engine) ,例如传统的通用搜索引擎 AltaVista ,Yahoo!和 Google 等,作为一个辅助人们检索信息的工具成为用户访问 web的入口和指南。但是, 这些通用性搜索引擎也存在着一定的局限性。 为了解决上述问题, 定向抓取相关 网页资源的聚焦爬虫应运而生。 聚焦爬虫是一个自动下载网页的程序, 它根据既 定的抓取目标,有选择的访问万维网上的网页与相关的链接, 获取所需要的信息。 本文将对网络爬虫技术及其原理进行简单的介绍,并且给出实例。

  • 2021-04-20
  • 收藏0
  • 阅读301
  • 下载0
  • 6页
  • pdf
  • 20.10M

评价

评分 :
   *