搜索引擎工作原理

企业在实施搜索引擎策略过程中，需要依据搜索引擎的检索原理与排名规则，有针对性地做一下seo网站优化，最终实现检索结果排位靠前、吸引用户点击网站等各项任务目标。因此，了解目前主流搜索引擎的工作原理，是企业开展改进搜索引擎策略的重要基础，具有极其重要的实践指导意义。
什么是搜索引擎
搜索引擎(search engines)是一个对互联网上的信息资源进行搜集整理，然后供用户查询的系统，它包括信息搜集、信息整理和用户查询3部分。搜索引擎的主要任务是搜索其他网站上的信息，并将这些信息进行分类并建立索引，然后把索引的内容放到数据库中，当用户向搜索引擎提交搜索请求的时候，搜索引擎会从数据库中找出匹配的资料反馈给用户，用户再根据这些信息访问相应的网站，从而找到自己需要的资料。
搜索引擎分类
按照数据收集方式的不同，搜索引擎主要分为3类:分别是目录索引搜索引擎、全文检索搜索引擎与元搜索引擎。
1.目录索引搜索引擎
目录索引搜索引擎(search index/ directory)中的数据是各个网站自己提交的，它就像一个电话号码簿一样，按照各个网站的性质，把其网址分门别类排在一起，大类下面套着小类，一直到各个网站的详细地址，一般还会提供各个网站的内容简介。用户不使用关键字也可进行查询，只要找到相关目录，就完全可以找到相关的网站(注意:是相关的网站，而不是这个网站上某个网页的内容)。这类搜索引擎往往也提供关键字查询功能，但在查询时，它只能够按照网站的名称、网址、简介等内容进行查询，所以它的查询结果也只是网站的url地址，不能查到具体的页面。由于这类搜索引擎的数据一般由网站提供，因此它的搜索结果并不完全准确，并不是严格意义上的搜索引擎。
2.全文检索搜索引擎
全文检索搜索引擎(full text search engine)这类搜索引擎通过一种称为“蜘蛛”的程序自动在网络上提取各个网站的信息来建立自己的数据库，并向用户提供查询服务，是一种真正意义上的搜索引擎。如alavista, google, excite, hothot, lycos等。
全文检索搜索引擎数据库中的数据来源分两种:一是定期搜索，也就是每隔一段时间搜索引擎就主动派出“蜘蛛”程序，对一定ip地址范围内的互联网站进行检索，一旦发现新的网站，就会自动提取网站的信息和网址加入自己的数据库。二是网站提交的信息，即网站所有者主动向搜索引擎提交地址，搜索引擎会在一定时间内派出“蜘蛛”程序搜索所提交的网站的相关信息，并存人自己的数据库中。总的说来，这些数据都是“蜘蛛”程序搜索到的网页上的具体内容，其搜索结果也能精确到具体网页。
其实，如今的搜索引擎和目录索引已经开始相互融合，全文检索搜索引擎也提供目录索引服务。比如yahoo这样的目录索引已经在20世纪90年代后期开始与google等搜索引擎合作，提供全文搜索服务。
3.元搜索引擎
元搜索引擎(meta search engine)在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有infospace, dogpile, vivisimo等(元搜索引擎列表)，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如dogpile，有的则按自定的规则将结果重新排列组合，如vivisimo。
搜索引擎工作原理
从工作原理角度解释，目前已有的全部搜索引擎并不是真正搜索互联网，它们的搜索范围实际上仅限于预先整理好的网页索引数据库。有资料显示，即便是排名全球搜索引擎第一的google可以检索的网页数量，也不超过全球互联网上网页总数的4喇。由此，可以提醒用户在使用搜索引擎过程中注意两个问题:第一。检索的网页范围有限，通过搜索引擎没有找到，并不代表互联网上真的没有;第二，企业网站制作并不必然会被搜索引擎收录检索。
1.全文检索搜索引擎
真正意义上的搜索引擎，通常指的是收集了互联网上几千万个到几十亿个网页并对网页中的每一个词(即关键词)进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键同的相关度高低，依次排列。
现在的搜索引擎已普遍使用超链分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的url, anchortext，甚至链接周围的文字。所以，有时候，即使某个网页a中并没有某个同，如“网络营销”，但如果有别的网页b用链接“网络营销”指向这个网页a，那么用户搜索“网络营销”时也能找到网页a。而且，如果有更多网页(c,d,e,f……)用名为“网络营销”的链接指向这个网页a，或者给出这个链接的源网页(b,c,d,e,f……)越优秀，那么网页a在用户搜索“网络营销”时也会被认为更相关，排序也会越靠前。
全文检索搜索引擎的工作原理分为3步:从互联网上抓取网页;建立索引数据库;在索引数据库中搜索排序。
(1)从互联网上抓取网页
利用能够从互联网上自动收集网页的spider系统程序，自动访问互联网，程序可以沿着任何网页中的所有超链接爬到其他网页并重复这过程，最终把爬过的所有网页收集回来。
(2)建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息(包括网页所在url、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等)，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链接中每一个关键同的相关度(或重要性)，然后用这些相关信息建立网页索引数据库。
(3)在索引数据库中搜索排序
当用户输人关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键同的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的spider一般要定期重新访问所有网页(各搜索引擎的周期不同，可能是几天、几周或几个月，也可能对不同重要性的网页有不同的更新频率)，更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库存储了互联网上几亿个至几十亿个的网页索引，数据量达到几千兆甚至几万兆。但即使最大的搜索引擎建立超过20亿个网页的索引数据库，也只能占到互联网上普通网页的40%不到，不同搜索引擎之间的网页数据重叠率一般在70%以下。使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是无法用搜索引擎搜索到的。
2.目录索引搜索引擎
目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按目录索引逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
与全文搜索引擎相比，目录索引搜索引擎的工作原理有以下不同之处:
首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。
其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其像yahoo这样的超级索引，登录更是困难。
再次，在登录搜索引擎时，一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录(directory)。
最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以从用户的角度看，拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。
目前，搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索，如google就借用open directory目录提供分类查询。而像yahoo这些老牌目录索引则通过与google等搜索引擎合作扩大搜索范围。在默认搜索模式下，一些目录类搜索引擎首先返回的是自己目录中匹配的网站，如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索，如yahoo。

上一个：适合新手的SEO教程
下一个：SEO与SEM营销有哪些区别