028-85954568

探索各大搜索引擎的搜索原理

对一些朋友来说搜索引擎的搜索原理显得那样神秘,其实搜索引擎工作流程非常简单,当作为一般用户在使用搜索引擎的时候,很难去想象或者了解搜索引擎工作原理是怎么样的,所以正是因为对搜索引擎的工作流程不是很了解,导致现在很多人都认为搜索引擎返回的结果是动态的结果,也就是当用户输入一个关键词查询的时候,搜索引擎马上从互联网上抓取结果,然后把我们查询的关键字结果反馈给用户.其实搜索引擎返回的结果是提前就已经抓取的,然后经过了一系列算法筛选之后放入数据库,用户查询就立即对索引数据库进行查找,反馈用户准确的关键字查询结果.
1.搜索信息形成快照
   网页快照收录是搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储形成快照的过程,他为搜索引擎开展各项工作提供了数据支持,搜索引擎的信息搜集基本都是自动的,搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接,机器人程序根据网页链到其他网页中的链链接,就像日常生活中所说的一传十,十传百一样,从少数网页开始,连到数据库上所有到其他网页的链接.
2.整理信息分析页面
   普通用户看页面,看到的都是文字,图片等一些直观信息,但是搜索引擎看的是网页源代码,而且会根据这些源代码来确定网页的重要信息.
   当我们看一个页面的时候,会发现一些粗体,加色等样式的文字,还有一些比较大的字体,有些文字还像标题一样被隔开,这些设置仅仅是让用户在浏览信息时候要特别注意,在搜索引擎看来源代码头部或者靠近头部的信息往往比其他位置的文字重要,大家可以很形象地将一个网页和一张报纸的页面比较来看,确定重要的文字和词语,这是搜索引擎建立网页索引过程的一个步骤.
   搜索引擎整理信息的过程称为建立索引,搜索引擎不仅要保存搜索起来的信息,还要将它们按照一定的规则进行编排,这样,搜索引擎不用重新翻查它所有保存的信息就能迅速找到所要的资料,想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来,再快的计算机系统也没有用.
3.接受查询处理关键词
   搜索引擎还会根据同义词和潜在语义进行拓展查询检索项,比如,搜索引擎会将"宠物"和"狗狗","人民"和"百姓"当作同一个概念进行处理.另外,搜索引擎在查询的时候,还会根据主题来进行归类,比如我们查询"SEO"的时候,系统会自动将"网站推广""搜索引擎优化"之类的词归为一个主题来处理. 
   当用户在搜索引擎进行查询的时候,如果用户在搜索框输入一个关键词,在索引中有这样一个完全匹配的结果的时候,就会显示出来,对于英文来说,相对就比较简单了些,只要对英文单复数,时态,词根,组合词进行分析即可,不过对于中文,则一定要进行分词,然后对关键词进行向量计算,得出哪个网站的哪个关键词权重比较高,就显示在索引中.
   用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料,搜索引擎每时刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极知时间内找到用户的需要的资料,并返回给用户.目前,搜索引擎返回的信息主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页,通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断些网页是否含有自己需要的内容.

优优科技版权所有,未经允许不得转载