互联网搜索引擎工作原理

[09-12 12:34:32]   来源:http://www.88dzw.com  电路基础   阅读:8591

文章摘要:通过索引进行搜索需要用户进行一次查询,并通过搜索引擎提交。查询可以相当简单,最少仅需一个词。建立比较复杂的查询则需要使用布尔运算符来细化和拓展搜索项。 最常见的布尔运算符包括: AND(与)——以“AND”相连的若干搜索项必须全部出现在网页或文档中。有些搜索引擎使用运算符号“+”来代替“AND”。 OR(或)——以“OR”相连的搜索项必须至少有一项出现在网页或文档中。 NOT(非)——“NOT”之后的搜索项不能出现在网页或文档中。有些搜索引擎使用运算符号“-”来代替“NOT”。 FOLLOWED BY(跟随)——某一搜索项必须紧随另一搜索项。 NEAR(临近)——某一搜索项和另一搜索项的距离必

互联网搜索引擎工作原理,标签:电子电路基础,模拟电路基础,http://www.88dzw.com

通过索引进行搜索需要用户进行一次查询,并通过搜索引擎提交。查询可以相当简单,最少仅需一个词。建立比较复杂的查询则需要使用布尔运算符来细化和拓展搜索项。

最常见的布尔运算符包括:

  • AND(与)——以“AND”相连的若干搜索项必须全部出现在网页或文档中。有些搜索引擎使用运算符号“+”来代替“AND”。
  • OR(或)——以“OR”相连的搜索项必须至少有一项出现在网页或文档中。
  • NOT(非)——“NOT”之后的搜索项不能出现在网页或文档中。有些搜索引擎使用运算符号“-”来代替“NOT”。
  • FOLLOWED BY(跟随)——某一搜索项必须紧随另一搜索项。
  • NEAR(临近)——某一搜索项和另一搜索项的距离必须小于特定词数。
  • 引号——引号内的词语应被看作一个完整短语,出现在网页或文档中。

搜索游戏
搜索引擎已经成为我们生活的不可或缺的部分,基于这个工具至少开发了一款精心设计的游戏。玩Google命中游戏时,您需要在 Google搜索引擎中键入两个词,期盼着只得到唯一结果——只有一个网页同时包含这两个词。这叫做纯命中。

这是一个很难的游戏——您需要选择两个完全不相关的词,否则肯定会得到许多网页结果。另一方面,很多完全不相关的单词查询不到任何结果。

如果你发现了一个纯命中,可以把它提交到www.googlewhack.com,他们会把它公布在命中栈(标着您的名字,或者任何您喜欢的称呼)上,大家都可以浏览。

借助布尔运算符定义的搜索是一种文字搜索——搜索引擎按照键入的词语或短语精确搜索。如果键入的单词含有多种意思,就会有问题。例如,“床”(bed),既可以是睡觉的床,也可以是种植花卉的花床,还可以是卡车的货舱或鱼的产卵地。如果您只对其中的一个意思感兴趣,也许就不想查看使用其他意思的网页。您可以尝试去除您不感兴趣的意思来建立文字搜索。但是,如果搜索引擎自己可以解决的话就更好了。

基于概念的搜索是搜索引擎的研究领域之一。有些此类搜索引擎应用统计分析来处理包含您要搜索的单词或短语的网页,以此寻找其它您可能感兴趣的网页。显然,对于基于概念的搜索引擎来说,为每个网页存储的信息要更多,而且每次查询也需要更复杂的处理过程。尽管如此,还是有许多团队致力于改进此类搜索引擎的结果和表现。还有些人转入了另一个研究领域,名为自然语言查询。

自然语言查询的理念是,您可以像询问坐在身边的人那样输入问题——不必使用布尔运算符或者复杂的查询结构。目前最受欢迎的自然语言查询网站是AskJeeves.com,该网站可以将用户的查询解析为关键字,之后再对已建好的网站索引进行搜索。它只能处理简单查询,但在适用于复杂自然语言的搜索引擎的开发领域,竞争相当激烈。

上一页  [1] [2] [3] 


Tag:电路基础电子电路基础,模拟电路基础电路基础

《互联网搜索引擎工作原理》相关文章