陈奇网络工作室

什么是蜘蛛爬行和抓取?

爬行是搜索引擎的第一步,完成数据收集的任务。

1、蜘蛛:

搜索引擎用来抓取和访问页面的程序叫蜘蛛,也叫bot。

2、跟踪链接:

搜索引擎蜘蛛为了在互联网上抓取尽可能多的页面,会跟踪页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来。

3、吸引蜘蛛:

理论上,蜘蛛可以抓取所有页面,但实际上它们不能也不会。

seo

人们希望包含更多的页面,所以他们必须尽最大努力

吸引蜘蛛抓取

为了避免重复抓取和爬取网站,搜索引擎会建立一个地址数据库,记录已经找到但没有被爬取的页面,以及已经被爬取的页面。

4、地址库:

搜索引擎蜘蛛捕获的数据存储在原始页面数据库中。其他页面数据与用户浏览器获取的HTML完全相同。每个URL都是这样一个唯一的文件号。

赞 ()
分享到:更多 ()

相关推荐

后台-系统设置-扩展变量-手机广告位-内容页底部广告位3
留言与评论(共有 0 条评论)
   
验证码: