当前位置:首页 >  站长 >  搜索优化 >  正文

策先生:浅谈SEO中关键词分词技术

 2011-12-30 10:19  来源: 未知   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

背景资料:

策先生——策恩“世界名鞋淘宝客”推广大赛特约评委

曾于第一季推广大赛期间对参赛选手表现进行每周精简点评,专治疑难杂症,为一众参赛选手所知晓。为人低调且神秘,专注网站推广数年。现任第二季策恩“世界名鞋淘宝客”推广大赛评委,行踪不甚明朗。

说到中文分词,我觉得只要从事SEO工作有关的朋友都应该深刻理解这一知识,理解搜索引擎是如何识别词与词之间的关系,如何判别语句的含义的。因为您只有充分的了解、贯穿应用中文分词才可以在关键词收集、分析、布局,包括标题的攒写做得更加得心应手,才会写出更加出色的软文。中文分词已经是SEO知识中的核心知识。

SEOER必须要理解搜索引擎是如何工作的这一点尤其重要,也是最基础的。

我们先来了解中文分词的概念,什么是中文分词?

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

目前搜索引擎对于中文分词可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

搜索引擎在接受用户搜索的时候第一个会判断用户搜索的“词”跟数据库里面的“词”是否匹配,匹配度如何来进行扫描;

按照输入的“关键词”或是“句子”不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;

如下:

1)正向最大匹配法(由左到右的方向);

例子:策恩“世界名鞋淘宝客”推广大赛。

正向最大切分出的关键词是:策恩、世界名鞋淘宝客、推广大赛(不上图了,大家百度一下,然后查看快照即可)

2)逆向最大匹配法(由右到左的方向);这个跟第一点是一样的分词方式,只是关键词的前后顺序换过来,在搜索引擎数据库查询得到的结果是一样的。

3)最少切分(使每一句中切出的词数最小);

例子:策恩“世界名鞋淘宝客”推广大赛

最少切分出来的词是:策恩、世界、名鞋、淘宝客、推广、大赛;

4)双向最大匹配法(进行由左到右、由右到左两次扫描)

2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。这种方法一直对抗着长期伪原创的做法,在09年一般的换换同义词,近义词的伪原创百度会收录,到了2010年伪原创的幅度需要做到更大才可以有效,在今年的六月底,百度的一次大更新过后,很多同学发现原来的采集的站,或是伪原创力度不大的网页内容被百度大量的放出来,不在收录,说明百度这一分词技术方法越来越成熟,越来越完善了。伪原创也是越来越难了。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。搜索引擎通过这一方法在“下拉框”或是“相关搜索”中可以充分提现出来。最近几年大家发现很多网络公司有一项业务是【刷百度相关关键词】,当用户输入某个关键词的时候,我们可以做到指定在百度下拉框出现自己想要的关键词,利用的就是这个基于统计的分词原理。

最后说下关键词在标题的应用,理解中文分词与网站标题的关系。

1、搜索词与网站标题完全匹配

当用户在百度搜索的时候,搜索词如果和您的网站标题完全匹配,而且你的网站也达到了一定的权重的时候就会有好的排名,这个也解释了标题一定要出现关键词,就是原因,反之,如果搜索的词不和您的网站标题完全匹配的时候搜索引擎就进行分词,分词的方式参与了中文分词原理的综合方式。

2、搜索词不匹配才进行分词

当词语与您的网站标题不匹配的时候就会进行分词,分词的方式会参与,正向、逆向、统计、理解、同义词、以及新词和歧义词。这个时候搜索引擎理解起来会比较难,从而影响到网页的排名;

说到这里我提下之前在一个策恩淘宝客大赛交流QQ群189321234发过一些淘宝上热搜的关键词出来,在上次梦江跟我的一次访谈中一位策恩的淘宝客说到这些词在淘宝上搜索次数很大,但是在百度的话几乎是零,当时我建议优化“行业词+策恩、行业词+策恩皮鞋”这类型的关键词,还说我会在往后写文专门说清楚,我再举一个例子,希望可以更加清楚点。

标题:休闲皮鞋策恩波文、时尚男人韩版风

按照最大匹配法来分:休闲皮鞋、策恩波文、时尚男人、韩版风。里面至少包含了“休闲皮鞋、休闲皮鞋策恩、策恩波文,策恩皮鞋波文”这4个词,这样既优化了在百度的热门词“休闲皮鞋”,精准词:休闲皮鞋策恩,同时也优化了在淘宝的热门词精准词“策恩波文、策恩皮鞋波文”,尽可能的做到跟用户搜索的词匹配度较高,我当时说的就是这个意思。

给大伙推荐一个淘宝客专属论坛:推客SEO论坛,包括淘宝客活动、交流、分享心得,还有免费淘宝客模板、程序、推广软件、教程下载等的论坛,建议多去看看。

A5站长网&策恩CEEN“世界名鞋淘宝客”推广大赛-第二季正在火热进行,赶紧围观:

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 长尾关键词挖掘优化与百度中文分词

    正确理解百度中文分词,对长尾关键词优化有着非常大的帮助。今天,小编带来的是《长尾关键词优化与百度中文分词》。希望对大家有所帮助。中文分词:指的是将一个汉字序列切分成一个个单独的词。通俗地讲,就是讲一个长尾关键词分为几个词。

  • 浅谈百度分词与关键词匹配度的优化方法

    百度分词技术一直是一门学问。对于搜索词,百度会不会进行分词,怎么分词,会影响到我们确立目标关键词及关键词排名优化的效果。掌握好分析技术,可以提高关键词语搜索词的匹配度,从而提高网站的排名,获得精准的流量。对于百度分词,我们需要了解百度是怎么分词,以

  • 蒋鑫鹏:百度搜索算法总结—关键词分词算法

    此文接上文百度算法总结详细请点击:蒋鑫鹏:百度算法总结一、关于中文分词:1.中文分词难度分析首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量。在开头赘述这一点是蒋鑫鹏

  • 基于discuz在线分词批量优化Dedecms文章关键词

    这个小程序是基于discuz在线分词批量更新已发内容的keywords(tag),如果数据量大(大于5万)的或者虚拟主机用户的话,最好环境搭到本地。速度会快一点。

  • 关键词分词技术:如何解决关键词的解体拆用问题

    我们并没有过多的谈论关键词的解体拆用问题,它也不算是seo的某个特别明显的特性。但是他对潜在的排名会有不利的影响。首先,我来告诉大家关键词的解体拆用是如何发生的。当一个网站的信息结构需要一个单一的目标条件或者一个要放在很多页面的短语的时候,关键词的解

热门排行

信息推荐