当前位置:首页 >  站长 >  搜索优化 >  正文

百度蜘蛛抓取规律,怎么让百度蜘蛛经常来?

 2019-07-15 12:02  来源:互联网  我来投稿   chenlong666的个人主页 撤稿纠错

  短视频,自媒体,达人种草一站服务

爬虫抓取效率:让百度蜘蛛更容易抓取

搜索引擎抓取您的网站以将内容放入其索引中。您的网站越大,抓取时间越长。抓取您网站所花费的时间非常重要。如果您的网站有1,000页或更少,那么这不是您需要考虑的主题。如果您打算发展您的网站,请继续阅读。尽早获得一些好习惯可以避免以后出现巨大的麻烦。在本文中,我们将介绍爬网效率以及您可以采取的措施。

所有搜索引擎都以相同的方式抓取。在本文中,我们将引用百度。

爬虫如何抓取您的网站?

百度会在网络上的某个位置找到指向您网站的链接。此时,该URL是虚拟堆的开始。之后这个过程非常简单:

百度蜘蛛从那一堆中获取一页;

它抓取页面并索引所有内容以供在百度中使用;

然后它将该页面上的所有链接添加到堆中。

在抓取过程中,百度蜘蛛可能会遇到重定向。它被重定向到的URL在堆上。

您的主要目标是确保百度蜘蛛可以访问该网站上的所有网页。第二个目标是确保快速抓取新内容和更新内容。良好的网站架构将帮助您实现这一目标。尽管如此,您仍然可以很好地维护您的网站。

爬行深度

在谈论爬行时,一个重要的概念是爬行深度的概念。假设您有1个链接,从您的网站上的1个网站到1个网页。此页面链接到另一个,另一个,另一个,等等.百度蜘蛛将继续爬行一段时间。但在某些时候,它会决定不再需要继续爬行。当这一点时,取决于指向第一页的链接的重要性。

这似乎是理论上的,所以让我们看一个实际的例子。如果您有10,000个帖子,则所有帖子都属于同一类别,并且每页显示10篇文章。这些页面仅链接到“下一个”和“上一个”。百度需要抓取1,000页深度才能获得这10,000个帖子中的第一个。在大多数网站上,它不会这样做。

这就是为什么重要的是:

使用类别/标签和其他分类法进行更细粒度的细分。不要过度使用它们。根据经验,标记仅在连接3个以上内容时才有用。此外,请确保优化这些类别档案。

链接到带有数字的更深层页面,因此百度蜘蛛可以更快地到达目的地。假设你链接第1页的第1页到第10页并继续这样做。在上面的示例中,最深的页面只有100次点击远离主页。

保持您的网站快速。您的网站越慢,抓取的时间就越长。

XML站点地图和抓取效率

您的站点应具有一个或多个XML站点地图。这些XML站点地图告诉百度您网站上存在哪些网址。一个好的XML站点地图还会指示您上次更新特定URL的时间。大多数搜索引擎会比其他搜索引擎更频繁地抓取XML站点地图中的URL。

在百度搜索控制台中,XML站点地图为您提供了额外的好处。对于每个站点地图,百度都会向您显示错误和警告。您可以通过为不同类型的URL创建不同的XML站点地图来实现此目的。这意味着您可以查看网站上哪些类型的网址出现问题最多。

导致爬行效率低的问题

许多404和其他错误

当它抓取您的网站时,百度会遇到错误。它通常只是从堆中挑选下一页。如果您在抓取过程中网站上有很多错误,百度蜘蛛会放慢速度。这样做是因为它害怕它通过爬得太快而导致错误。为防止百度蜘蛛放慢速度,您需要尽可能多地修复错误。

百度会在其网站站长工具中向您报告所有这些错误,360和搜狗也是如此。我们之前已经在百度搜索控制台和360网站管理员工具中介绍了错误 。

您不会是我们看到的第一个客户端,它在百度搜索控制台中有3,000个实际URL和20,000个错误。不要让您的网站成为该网站。至少每个月定期修复这些错误。

301重定向过多

我最近在一个刚刚完成域迁移的网站上进行咨询。该网站很大,所以我使用我们的一个工具来运行网站的完整抓取,看看我们应该修复什么。很明显我们有一个大问题。此站点上的一大组URL始终链接到没有尾部斜杠。如果您使用不带尾部斜杠的此类URL,则会重定向301。您将被重定向到带有斜杠的版本 。

如果您网站上的一个或两个网址存在问题则无关紧要。实际上这通常是主页的问题。如果这是您网站上250,000个网址的问题,那么这就成了一个更大的问题。百度蜘蛛不必抓取250,000个网址,而是抓取500,000个网址。这不是很有效率。

这就是为什么在更改网址时应始终尝试更新网站中的链接的原因。如果不这样做,随着时间的推移,您将获得越来越多的301重定向。这会降低您的抓取速度和用户速度。大多数系统需要一秒钟来服务器重定向。这会在页面加载时间上再增加一秒。

蜘蛛陷阱

如果您的网站在百度眼中更具权威性,那么有趣的事情就会发生。即使很明显链接没有意义,百度也会抓取它。给百度虚拟相当于一个无限螺旋楼梯,它将继续前进。

这就是我们所说的“ 蜘蛛陷阱 ”。像这样的陷阱会使搜索引擎爬行效率极低。修复它们几乎总能在自然搜索中获得更好的结果。您的网站越大,这些难以找到的问题就越多。即使是经验丰富的SEO也是如此。

您的网站如何抓取效率?

我很想知道你是否遇到过类似爬行效率的特殊问题,以及你是如何解决这些问题的。如果这篇文章帮助你解决问题,那就更好了,请在下面告诉我们!

排名第一. www.paimingdiyi.com 版权所有. 转载时必须以链接形式注明作者和原始出处及本声明。

友情提示:A5官方SEO服务,为您提供权威网站优化解决方案,快速解决网站流量异常,排名异常,网站排名无法突破瓶颈等服务:http://www.admin5.cn/seo/zhenduan/

 

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • seo概念深入的理解

    seo优化重要的三要素之一,其可以理解为网站较为重要的词,网页核心词,用户搜索需求较大的,可以带来转化的目标关键词,一般会在网站首页标题中出现

  • 网站运营和SEO优化如影相随的原因 没有SEO就没有流量

    网站运营这个活,好像关注的人少了,更让人感到失望的时候,SEO优化这个牛叉的技能,没有更多的大神去分享,是SEO过时了吗?无用了吗?有一些事情,你不真正融入进去,是很难看到真相的。

  • SEO同业竞争,如何超越竞争对手?

    每一个行业都存在竞争对手,特别是SEO这个领域,同业竞争显得异常激烈,对于一个新企业站,想要在垂直行业中,崭露头角,从目前来看,显得格外困难。但这并不代表,我们无计可施,所谓知己知彼,我们只有充分的了解竞争对手,才能在SEO同业竞争中,有的放矢。

    标签:
    seo优化技术
  • SEO的门槛到底高不高?

    我面试SEOer的时候,一个面试者曾经对我发起过灵魂拷问,当我问他是否会建站的时候,他带着明显的不屑的语气反问:建站是技术的事儿,我们SEO只负责SEO的工作!

  • Seo关于网站图片的细节处理

    网站图片SEO的优化有两个重要的问题。一是增加搜索引擎可看见的文本描述,二是在保持图像质量的同时尽可能压缩图像的文件大小。准确的步骤可以按照以下三点操作:

  • 网站每个页面的标题需要如何进行SEO优化

    一个完整的网站不仅仅只有一个首页,而是由栏目页、文章页、产品页等各类页面组合而成的,当我们进行SEO优化时,为了让网站能有更多的流量来源,对于内页也要进行一定的优化处理。

    标签:
    seo优化
  • 选好关键词,务必遵循这5大原则

    在SEO工作中,如果把网站比作是一篇优秀的文章,那么关键词就是组成文章内容的重要字词。所以,在选择关键词时,一定要做到尽善尽美。接下来就详细介绍一下关键词的选择原则。

  • 网站优化9大策略

    搜索引擎蜘蛛是无法抓取框架页的。通过noframe标签,将指向frame页的链接或带关键词的描述文本包含在框架页中,就可以实现对框架页的优化。

    标签:
    网站优化
  • A5营销:这一年,我的网站流量去哪了?未来怎么做

    前两年很多站长问我,贺老师现在什么站最好做呢?我推荐他们选择一个可以细分下来的B2B领域来做,比如:LED灯具,安防设备、电工器材等。因为无论如何,企业的需求,是永远不会变的。但是现在如果有人问我,我不会再向他们做同样的推荐。

    标签:
    seo优化
    a5营销
榜单

热门排行

信息推荐

扫一扫关注最新创业资讯