当前位置:首页 >  站长 >  搜索优化 >  正文

网站优化应对蜘蛛页面抓取异常

 2018-07-06 10:07  来源:领创网络  我来投稿

  小程序创业扶持计划 实现月入10万创业梦

  收录是指网页被搜索引擎抓取到,然后放到搜索引擎的库里,等到人们搜索相关词汇的时候,可以在搜索结果页展示列表看到已经收录的页面及页面信息。我们所说的“网页被收录”即能在搜索结果页看到相关的页面。反之,“网页没有被收录”问题就复杂一些,因为在搜索结果页没有看到对应的页面,并不意味着网页就没在搜索引擎的库里,或者说就没有被收录,有可能是网页针对当前的搜索词汇排名不好,在760个记录之外,因此没有得到展示。

  收录涉及网页被搜索引擎蜘蛛抓取,然后被编入搜索引擎的索引库,并在前端被用户搜索到这一系列的过程。对SEO人员或者希望对自己网站进行优化的非专业SEO人员来说,了解页面是如何被搜索引擎收录的,了解搜索引擎的收录原理,都是极有好处的,能帮助你在进行网站SEO的时候尽量遵循收录的规律,提高网站被收录的比例。

  搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。比如我们常见的,有时候打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。

  有时候,会返回503,503返回码代表网站临时无法访问,可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URI。处理,如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除,这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。

  在返回码中,有一类需要格外注意,就是301。301代表永久性移除,当前URL被永久性重定向到另外的uRL。一般来说,因为改版等原因,部分URL需要永久被替换为新URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。

  返回码301的优化写法如下。

  (1)创建一个htaccess.txt文件。

  (2)在htaccess.txt里写好返回码30l的跳转信息。

  假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息。

  RewriteEngine on

  RewriteCond%{http_host}abc.com[NC]

  RewriteRule^(.*)$ http://www.abc.com/$1[L,R=301]

  (3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。

  需要提醒的是目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此,在考虑htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。

  实际上,在重定向的处理上存在多种方式,简单来说,重定向可以分为http30x重定向、meta refresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都确认支持Canonical标签,可以通过制定一个权威页面的方式,引导蜘蛛只索引一个权威页面,从实际效果上来说,也是一种间接的重定向。在实际抓取过程中,蜘蛛会对各种重定向效果进行识别。

  重定向的方法有多种,但是从SEO角度来说,如果是永久跳转的页面,尽量在采用返回码301的跳转方式。另外,从

  时间结果来看,百度对Canonical的支持并不如谷歌好,采用Canonical未必能得到如期效果。有些网站通过不同的路径进入同

  一页面,可能会出现多个URL的情况,当面对这种情况时,可能需要一些处理技巧,关于Canonical的使用技术可参见本书关于Canonical的专门讲解。

  外链等因素对搜索的排名是有影响的,那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明,即执行包括“深度优先遍历策略、宽度优先遍历策略、PR优先策略、反链策略、社会化分享指导策略等”。同时,这也说明每个策略各有优劣,在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼,我们可以认为,百度在实际抓取的时候,其实都考虑了这些因素,只是权重可能有所不同,因此,尽量提高网页PR,增加更高质量的外链,进行高质量的社会化分享,对网站的SEO工作是有积极意义的。

  另外,针对互联网存在的大量“盗版”“采集”的网页情况,在抓取的过程中,蜘蛛会通过技术判断页面是否已经被抓取过,并对URI.不同但是实际内容相同的页面的URL进行归一化处理,即视作一个URL,。也就是告诉SEO人员,不要通过大量创建页面的方式来获得更多的搜索资源,如果页面很多,但是每个页面的内容重复性很高,或者仅是uRL中包含无效参数来实现多个页面,搜索引擎仍然把这些URI。当作一个uRL处理,即网站页面不是越多越好,通过功利的方式拼凑网页,大量部署长尾,但是页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响到整站的SEO效果。

  蜘蛛在抓取的过程实际是依据链接不断往下探索的过程,如果链接之间出现短路,蜘蛛就无法往前爬了。在真实的网站运营中,我们可以看到很多网页实际潜藏在网站后端,蜘蛛是无法抓取到的,比如没有预留入口链接,或者入口链接已经失效等,这些无法抓取到的内容和信息,对于蜘蛛来说就是一个个的孤岛,对SEO人员来说就是没有完全发挥内容的引流作用。同时,因为网络环境或者网站规范等原因也可能导致蜘蛛无法爬行。

  如何解决信息无法被抓取到的问题?几个可行的办法如下。

  ・采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。

  ・采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。

  蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。

  HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTP Header信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。

  HTTPS协议是一种加密协议,一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候,尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。

  本文由领创网络菏泽网站建设公司:https://www.lingchuangweb.com/ 原创文字,版权所有,转载请注明出处,并保留本链接,谢谢!

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

责任编辑:sunpeipei   /   作者:领创网络

相关文章

  • SEO页面收录分析和蜘蛛抓取

    蜘蛛抓取分析是对蜘蛛爬行网站的页面的行为进行分析,目的是分析蜘蛛爬行的网页占网页实际数量的百分比,用于检测网站内链的连通性和洞悉蜘蛛的爬行规律。蜘蛛爬行一般按照URL的层级进行分析

  • 链接欺骗和百度真假蜘蛛

    之前群里有朋友问我什么是链接欺骗,小编今天就这个话题来给大家分享一下,并引申讲解下什么是百度真假蜘蛛。为什么会有虚假的百度蜘蛛呢?比如我们用爱站或者ChinaZ来模拟百度或者谷歌蜘蛛分析网页,那这种蜘蛛就是假的蜘蛛。还有一种就是通过程序来模拟,比如python脚本就可以模拟。

  • 自带流量的幼儿园网站 怎样做好网站优化推广呢

    在大多数人眼里,幼儿园网站好像就是一个摆设,没有多大营销价值,见惯了各种利用朋友圈给孩子投票这样吸粉的“伎俩”,在竞争激烈的市场竞争中,幼儿园似乎也避免不了生源的争夺,在互联网时代,幼儿园网站被赋予了更多的功能。

  • 关键词排名牛逼就说明你的网站优化推广好吗?

    今天和大家聊聊,你网站关键词排名牛逼,就说明你的网站优化推广做得很好吗?杨子却不以为然,但是在很多做优化推广的人员(特别是一些新手搜索引擎优化人员)及一些企业老板都是这样的认为的。他们把一个网站关键词的排名,是否在百度首页来衡量这个网站优化推广的成败,把排名因数看成是一个网站的全部,对于这样的看法,

  • 搜索引擎蜘蛛,是神一样的敌人,还是猪一样的队友?

    前言:互联网日益刷新的年代,有句话流传着,不怕神一样的对手,就怕猪一样的队友。很多时候,对于我们SEO人来说,搜索引擎这只巨大无比的蜘蛛,究竟是敌是友,是神还是猪,时不时的会蹦出这样的一个念头。也许,同样接触SEO几十年的你们,也能感受得到那只摸不着的手,似乎,在控制着什么,我们在探索SEO的道路上

    标签:
    搜索引擎蜘蛛
xm

热门排行

信息推荐

扫一扫关注最新创业资讯