当前位置:首页 >  站长 >  搜索优化 >  正文

鲨鱼分享搜索引擎原理(一)

 2010-01-02 17:23  来源:   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

搜索引擎,一般指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素:

标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的title标签中提取的内容,但是现在的搜索引擎并不是单一的从title中提取标题,因为有些网页的内容与标题不符,可以理解为现在的SEO作弊手法之一。

URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页内容的权威性进行判断,例如想要找传奇归来外挂的网站上面的内容通常就比以传世群英传外挂标题首拼的要更权威些(不排除后者上的内容更有趣些,或者有相关内容)。

摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节截取下来作为摘要,但是现在多数搜索引擎还是最喜欢从description标签里提取,当然如果没有这个标签,那还是会用上述方法提取内容。

通过浏览这些元素,用户对相应的网页是否真正包含他所需的信息进行判断。比较肯定的话则可以点击上述URL,从而得到该网页的全文。例如用户提交了查询词“传奇归来外挂”,系统返回一个相关信息列表。列表的每一条目所含内容比上述要丰富些,但核心还是那三个元素。如果用户主要是想从外挂下载方面了解,第一条目往往就是最好的选择,所以现在好多企业都在找SEO来为自己的网站优化,当然有的直接就请一个SEO高手回来,专门优化企业网站。

这个例子提示了我们一个重要的情况,即搜索引擎提供信息查询服务的时候,它面对的只是查询词。而有不同想法的人可能提交相同的查询词,关心的是和这个查询词相关的不同方面的信息,但搜索引擎通常是不知道用户背景的,因此搜索引擎既要争取不漏掉任何相关的信息,还要争取将那些“最可能被关心”的信息排在列表的前面。这也就是对搜索引擎的根本要求。除此以外,考虑到搜索引擎的应用环境是Web,因此对大量并发用户查询的响应性能也是一个不能忽略的方面。

作为对搜索引擎工作原理的基本了解,这里有两个问题需要首先澄清。第一,当用户提交查询的时候,搜索引擎并不是即刻在Web上“搜索”一通,发现那些相关的网页,形成列表呈现给用户。而是事先已“搜集”了一批网页,以某种方式存放在系统中,此时的搜索只是在系统内部进行而已。第二,当用户感到返回结果结果列表中的某一项很可能是他需要的,从而点击URL,获得网页全文的时候,他此时访问的则是网页的原始出处。于是,从理论上讲搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与他点击URL所看到的内容一致,甚至不保证那个网页还存在。这也是搜索引擎和传统信息检索系统的一个重要区别。这种区别源于前述Web信息的基本特征。为了弥补这个差别,现代搜索引擎都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或“历史网页”链接,保证让用户能看到和摘要信息一致的内容。

今天是第一讲,内容比较笼统,在以后的学习中会逐步展开来细讲。转载请带上www.csqyzwg.com。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

信息推荐