当前位置:首页 >  站长 >  搜索优化 >  正文

关于百度对网站内容的识别

 2013-09-13 19:25  来源: 湖北旅游景点   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

上个月开始,我制作了两个旅游信息类网站,目前网站收录良好,快照实时更新,但一直尚未有排名。我个人分析了一下,可能在网站的内容上还存在一些问题,那么今天在这里以二一网(www.21w.cc)为例来跟大家讨论一下关于百度对网站内容的识别这一个问题。

一、百度对网站内容原创度的识别

今年5月份开始,百度推出了百度原创火星计划,很明显的一个标志就是在页面的索引前加上了一个时间。百度方面的说明是,在原创内容上面获得优待方式上只要满足了用户需求前提下,给予优先展示,另外,展现上,给原创内容还进行标记。但是,根据我个人实际操作各部分站长的反馈来看,大家都感觉百度的原创识别技术不高,包括笔者在内。

拿二一网来说,有时候自己写的原创文章,收录了,但是并没有原创内容的标记;有的时候非原创的文章转载过来,却有原创内容的标记。当然,出现这种情况可能是百度本身在原创内容的识别上数据库不够强大,后台内容比对过渡还不够完善。从专业学术的角度来看,如果一篇文章里有连续的30个字与其他地方的文章相同,同时引文不添加引用标记,则可以认定为抄袭。

与百度原创火星计划相相似的谷歌原创计划运行这么长时间以来,也一直没有取得较好的效果。个人认为,现在更多的内容识别可能更依赖于百度权重而已,与文章内容并无太大关联。

二、百度对网站内容排版格式的识别

不知道大家有没有这样的体会,建好一个网站后,能过网站采集功能,从其他相关网站采集回来,对文章格式进行处理后,再发布到网站上去,百度也能给予原创内容的标记。

原本以来,百度蜘蛛抓取时,只会抓取文章正文内容,丢弃代码格式。但是,反过来一想,百度需要识别一些使用格式来做黑帽SEO的手法,从这一点需要上来说,百度不会丢弃网页代码,在抓取时会将代码与正文一同抓取。

那么,有了上面的分析,我们通过在现在文章上添加一些新的格式、排版就能实现文章的伪原创了吗?对于这个问题,我现在还不能完全给出结论,但可以肯定的一点的是,文章排版排除用户体验的因素后,对百度的抓取还是有一定影响的。

三、百度对网站内容页面中时间的识别

百度快照超前和快照滞后这两种情况不知道大家有没有见过,但是我在实际操作过程发现这种情况依然存在的。先来解释一下这两种现象吧:

百度快照超前,就是百度快照时间超过了当前时间,举个例子,今天是2013年9月12日,但是你的网站中有一个网页快照是2014年9月12日。百度快照滞后则正好相关,比如你发布了一篇文章,发布时期是2013年9月12日,按百度目前的处理情况来看,百度快照应该是2013年9月12日,但是现在你的快照时间是2012年9月12日,而快照时间点上,你的网站还没有上线呢!这又是一种什么情况呢?

通过分析整理,发现是百度对网页中时间的抓取处理上存在问题。比如,2013年9月12日发布了一篇文章,但是这篇文章的发布时期上却写的是2012年9月12日,那么就有可能出现快照滞后的现象。快照超前则相反。当然,出现这种情况也都只是可能,并不一定都会这样,这也暴露了百度在索引中存在的一些问题。有兴趣的同学可以去试验一下,在快照时间与关键词排名方面可以研究一下。

文章首发A5,转载请注明出处:二一网 。谢谢。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

热门排行

信息推荐