让每一个企业都拥有适合自己的互联网应用方案-阜阳中拓科技   网站首页 > 新闻动态
 
应对蜘蛛抓取的基本策略
来源:zt0558.cn 发布时间:2021/11/4
  在蜘蛛实际抓取网页的过程中,因为网页内容的复杂性(文本、Fash、视频等)和技术实现的多样性(纯静态、动态加载等),为了更高效地利用蛛蛛资源,搜索引擎公司会置顶不同的抓取策略,作为阜阳网站优化人员,可以参考搜素引擎公司对抓取策略的描述,采用最大化的SEO方法。
  作为国内最大的搜索引擎公司,百度在它的官方文档中是如下这样描述抓取策略的。互联网资源具有庇大的数量级,这就要求抓取系统尽可能高效地利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值的资源。这就造成了另—个问题,耗费被抓取网站的带宽造成访问压力如果程度过大,将直接影响被抓取网站的正常用户访问行为。
  因此在抓取过程中要进行一定的抓取压力控制,实现既不影响网站的正常用户访问,又能尽量多地抓取到有价值资源的目标。通常情况下,采用的最基本的方法是基于|P的压力控制。这是因为如果基于域名,可能存在一个域名对多个iP(很多大网站)或多个域名对应同一个P(小网站共享iP)的问题。实际工作中,往往根据iP及域名的多种条件进行压力控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时 Baiduspider将优先按照站长的要求进行抓取压力控制.
  对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。此外阜阳网站优化公司告诉大家同一站点不同的时间抓取速度也会不同,例如,夜深人静的时候抓取的可能就会快一些。也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断地调整。对于不同站点,也需要不同的抓取速度。