网络爬虫的设计与实现(完整版)分解

网络爬虫将下载的网页和收集到的网页信息存储在本地数据库中以供搜索 引擎使用,它是一 一个专门从万维网上下载网页并分析网页的程序。随着网络的快 速发展,人们对搜索引擎的要求也越来越高,而网络爬 虫的效率直接影响着搜索引擎的质量。 本课题研究的是通用网络爬虫,它是从一 个或若干个初始网页的链接开始进 而得到-一个链接队列。伴随着网页的抓取又不断从抓取 到的网页中抽取新链接放 入到链接队列中,直到爬虫系统满足了停止条件。 该课题主要涉 及到了缓冲池技 术,多线程技术,套接字技术,HTTP和 SSL协议,正则表达式,Linux 网络编程 技术,PHP+Apach的使用等 相关技术

  • 2021-04-20
  • 收藏0
  • 阅读338
  • 下载1
  • 28页
  • pdf
  • 1.73M

评价

评分 :
   *