爬行、抓取、索引、收录，指的都是什么？

2022-06-25 02:31:53 浏览：325 作者：管理员

【商户信息】

类目：知识大全

联系人：

微信号：
Q Q 号：
手机号：
浏览量：

325

【货源详情】

　　index标识，就是指告知搜索引擎蜘蛛能够爬取该网页页面，那麼noindex不便是不允许爬取该网页页面吗?!那麼为何文章内容最终的好多个表明里有“noindex标识不可以节约爬取市场份额。百度搜索引擎要了解网页页面上面有noindex标识，就得先爬取这一网页页面，因此并不节约爬取市场份额。”

　　留言板留言表明，这名阅读者并沒有太搞清楚什么叫爬取，什么是索引，index和noindex标识的实际意义又是啥。noindex标识并不是不允许爬取该网页页面，是不允许数据库索引该网页页面，这二者是不一样的含意，有不一样的作用。

　　看SEO相关blog和社区论坛时要觉得到，许多SEO并沒有了解爬取、爬取、数据库索引、百度收录这种定义究竟指的是什么，差别在哪儿，noindex、nofollow、robots文件的作用又是啥。对这种定义沒有精确了解，解决商业网站构造，决策哪些网页页面必须被爬取，哪些必须被数据库索引，什么网页页面必须严禁爬取、数据库索引这些状况时，就难以搞清楚该怎么做。乃至如同爬取配额制那篇贴子的许多留言板留言说的，提及这种状况的解决时，压根不明白在说些什么。

　　爬取是啥?

　　爬取指的是百度搜索引擎搜索引擎蜘蛛从已经知道网页页面上分析出连接偏向的URL，随后顺着连接发觉html页面(也就是连接偏向的URL)的全过程。自然，搜索引擎蜘蛛并并不是发觉新URL立刻就爬以往爬取html页面，只是把发觉的URL储放到待抓详细地址库文件，搜索引擎蜘蛛依照一定次序从详细地址库文件获取要爬取的URL。

　　爬取是啥?

　　爬取是百度搜索引擎搜索引擎蜘蛛从待抓详细地址库文件获取要抓的URL，浏览这一URL，把载入的HTML编码存进数据库查询。搜索引擎蜘蛛的爬取便是像电脑浏览器一样开启这一网页页面，和客户电脑浏览器浏览一样，也会在网络服务器初始日志中留有纪录。

　　索引是什么?

　　数据库索引指的是将一个URL的信息内容开展梳理，存进数据库查询，也就是数据库索引库，客户检索时，百度搜索引擎从数据库索引库文件获取URL信息内容并排列呈现出去。数据库索引的英语是index。数据库索引库是用以检索的，因此被数据库索引的URL是能够被客户检索到的，沒有被数据库索引的URL客户在百度搜索中是看不见的。

　　要留意的是，说白了“一个URL的信息内容“，并不限于搜索引擎蜘蛛从URL上爬取来的內容，也有来源于其他来源于的信息内容，如外链、连接的锚文本等。有的情况下，数据库索引库文件有关这一URL的的信息内容，压根沒有从这一URL爬取来的內容，但百度搜索引擎了解这一URL的存有，而且有一些其他信息内容。

　　爬取和数据库索引并不是一回事儿。

　　百度收录是啥?

　　我本人感觉百度收录和数据库索引沒有差别。只不过是百度收录是以检索客户角度观察的，检索时要寻找这一URL，就是这个URL被百度收录了。从百度搜索引擎角度观察，URL被百度收录了，也就是这个URL的信息内容在数据库索引库文件存有。英语并沒有百度收录这个词，和数据库索引用的是同一个词index。

　　noindex的功效是啥?

　　网页页面头信息内容里放上meta noindex标识是告知百度搜索引擎不必数据库索引这一URL，也就是客户检索时找不着这一URL的信息内容，这一URL不容易回到在百度搜索目录中。

　　noindex并不是告知百度搜索引擎不必爬取这一URL，事实上，noindex要起功效，这一URL是务必先被爬取的，要不然百度搜索引擎如何见到网页页面HTML编码中有noindex标识呢?

　　robots文件的功效是啥?

　　robots.txt文件是告知百度搜索引擎，一些URL不必爬取。留意，这儿说的是不必爬取，没说不必数据库索引。和noindex是正相反的。

　　nofollow的功效是啥?

　　给连接再加上nofollow标识是告知百度搜索引擎，不必顺着这一连接爬取，就当这一连接不会有。留意，nofollow仅仅告知搜索引擎蜘蛛不必爬这一连接，沒有说不必爬取连接偏向的URL，都没有说不必数据库索引连接偏向的URL，nofollow既没严禁爬取，也没严禁数据库索引。

　　定义说之后，强调好多个SEO们常常弄搞不懂的状况：

　　沒有被爬取的网页页面是能够被数据库索引的

　　换句话说，搜索引擎蜘蛛沒有浏览和爬取这一网页页面(例如被robots文件严禁爬取)，这一网页页面却有信息内容存有数据库索引库文件，客户检索时还能见到。

　　例如，淘宝网全部网址用robots文件严禁百度爬虫爬取，但没有用noindex严禁数据库索引(如上边说的，严禁爬取后，就没法严禁数据库索引了，不爬取，就看不见noindex标识了)，因此即便百度搜索沒有浏览和爬取淘宝网网页页面，但淘宝网许多网页页面是被百度搜索数据库索引的，客户能够找到的：

　　百度搜索从在网上那么多连接了解淘宝主页的存有，根据连接的锚文本也了解这一网页页面文章标题大约是淘宝网这类的，自然更了解百度口碑里的点评数。因此即便百度搜索搜索引擎蜘蛛沒有爬取淘宝主页，客户或是能找到，而且表明一些百度问答的信息内容。

　　要想百度搜索不可以回到淘宝主页应该怎么办呢?撤销robots文件的严禁爬取，网页页面上放noindex严禁数据库索引。

　　被爬取的网页页面是可以不被数据库索引的

　　最普遍的便是上边说过的，网页页面头信息内容应用noindex严禁数据库索引，网页页面被爬取，读到noindex后，不被数据库索引，不容易在百度搜索中回到。老网页页面添加noindex也不是立刻删除索引，还会继续保存数据库索引一段时间，但不容易回到在百度搜索中。

　　加了noindex的网页页面上的连接是能够被追踪一段时间的，但时间长了，有noindex的网页页面百度搜索引擎很有可能就不会再爬取和数据库索引了，上边的连接也就失效了。

　　也有很有可能是由于网页页面內容是剽窃、转截、低品质的，百度搜索引擎尽管爬取了网页页面，数据库索引全过程中检验出这种內容难题，被丢掉，沒有被数据库索引。因此网页页面沒有被百度收录，一般要先查验初始日志，看一下是不是被爬取过，假如被爬取过，可能是內容产品质量问题，假如压根没被爬取，提议先看一下网址构造是不是有什么问题。

　　加了nofollow的连接总体目标网页页面能够被爬取和数据库索引

　　前边讲了，nofollow既不严禁爬取，都不严禁数据库索引。nofollow的功效是告知搜索引擎蜘蛛不必跟随这一连接爬，就当这一连接不会有，但nofollow只对这一连接起功效，对其他连接没功效，这一连接加了nofollow，不代表着其他地区就沒有一切正常的偏向这一URL的连接，只需其他地区发生了没加nofollow的连接，总体目标URL依然会被发觉、爬取(假定没被robotx文档严禁)、数据库索引(假定没加noindex )。

　　文中转自：ZAC每日一贴