互联网搜索引擎工作原理
[09-12 12:34:32] 来源:http://www.88dzw.com 电路基础 阅读:8591次
文章摘要:互联网搜索引擎工作原理 有关互联网和它最引人注目的部分——万维网的好消息是,网上有无数网页提供主题极为多样的信息。坏消息是,这些网页大都是由制作者随便命名的,而且几乎全都存储在不知何名的服务器上。当你需要了解特定主题时,您怎么知道应当阅读哪些网页呢?像大多数人一样,您要使用互联网搜索引擎。 互联网搜索引擎是万维网中的特殊站点,专门用来帮助人们查找存储在其他站点上的信息。尽管各种搜索引擎的工作方式有所不同,但它们都要完成三个基本任务: 基于关键字来搜索互联网——或其中的一部分。 生成一份索引,保存所搜寻的词语,以及相应地址。 允许用户在索引中查找词语或词语组合早期搜索引擎的索引
互联网搜索引擎工作原理,标签:电子电路基础,模拟电路基础,http://www.88dzw.com互联网搜索引擎工作原理

有关互联网和它最引人注目的部分——万维网的好消息是,网上有无数网页提供主题极为多样的信息。坏消息是,这些网页大都是由制作者随便命名的,而且几乎全都存储在不知何名的服务器上。当你需要了解特定主题时,您怎么知道应当阅读哪些网页呢?像大多数人一样,您要使用互联网搜索引擎。
互联网搜索引擎是万维网中的特殊站点,专门用来帮助人们查找存储在其他站点上的信息。尽管各种搜索引擎的工作方式有所不同,但它们都要完成三个基本任务:
- 基于关键字来搜索互联网——或其中的一部分。
- 生成一份索引,保存所搜寻的词语,以及相应地址。
- 允许用户在索引中查找词语或词语组合
早期搜索引擎的索引仅包括数十万个的网页或文档,每天受理的查询可能只有一两千次。如今,顶级搜索引擎的索引列表涵盖数亿个网页,每天响应数千万次查询。在本文中,我们将会讲解这些基本任务是如何完成,以及互联网搜索引擎是如何整合信息以帮助我们在网上找到所需内容。
大多数人谈及互联网搜索引擎时,实际上指的是万维网搜索引擎。在万维网成为互联网最引人注目的部分之前,早就有搜索引擎帮助人们查找网上信息了。如“gopher”和“Archie”等程序可以生成索引,存储在接入互联网的各个服务器上的文件信息,极大缩短了查找程序和文档的时间。上世纪八十年代末,要想从互联网上获得有价值的信息,就必须知道如何使用 gopher、Archie、Veronica以及其它类似程序。
现在,大多数互联网用户只限于搜索万维网,所以本文只讨论面向网页内容的搜索引擎。
小蜘蛛开始行动
搜索引擎在有能力告诉你文件或文档存储在何处之前,必须先找到它们。为了在现有的数亿网页中找到信息,搜索引擎使用了一种特殊的软件机器人,称之为蜘蛛程序,以此生成在网站上查询到的词语列表。蜘蛛程序建立词语列表的过程被称为爬网。(将互联网的一部分称为网络有些缺点——大量工具以蜘蛛命名就是其一。)为了建立并维护一份有用的词语列表,搜索引擎的蜘蛛程序需要游历大量网页。
蜘蛛程序如何开始其网上旅程?通常起点是那些访问量很大的服务器和热门网页。蜘蛛程序从一个很受欢迎的网站开始,检索网页上的词语并追踪在该网站上找到的每个链接。这样,蜘蛛程序迅速开始了旅行,爬遍网上绝大多数经常访问的网站。
![]() <-- -->为了方便在线用户找到所需网页, 蜘蛛程序提取网页内容并设立搜索关键字。 |
Google的前身是一个学术搜索引擎。在介绍该系统开发过程的论文中,google创始人塞吉·布林(Sergey Brin)和劳伦斯·佩奇(Lawrence Page)举例说明了他们的蜘蛛程序工作得有多快。他们最初开发的系统使用多个蜘蛛程序——通常是三个。每个蜘蛛程序可以同时打开300个链接。最多可以同时使用四个蜘蛛程序,此时该系统每秒可以游历100多个网页,生成大约600KB的数据。
要保证一切都快速运行,意味着必须开发一套系统来为蜘蛛程序提供必要信息。早期Google系统有一个专门为蜘蛛程序提供链接信息的服务器。为了尽可能减少延时,Google没有依靠互联网服务提供商提供的域名服务器(DNS)来将服务器名翻译为网址,而是准备了自己的域名服务器。
当Google的蜘蛛程序访问一个HTML网页时,它会记录以下两种信息:
- 网页中的词语
- 词语所在位置
出现在标题、副标题、元标记以及其他相对重要的位置的词语,会被记录下来,这些词语往往是日后用户搜索时经常使用的。Google蜘蛛程序的设计旨在检索网页中的每一个重要单词(对于英文来说,还要滤掉冠词a、an和the等)。其他蜘蛛程序采用不同的方法。
- 上一篇:什么是Aimster?
《互联网搜索引擎工作原理》相关文章
- › 互联网搜索引擎工作原理
- 在百度中搜索相关文章:互联网搜索引擎工作原理
- 在谷歌中搜索相关文章:互联网搜索引擎工作原理
- 在soso中搜索相关文章:互联网搜索引擎工作原理
- 在搜狗中搜索相关文章:互联网搜索引擎工作原理
编辑推荐
- · 什么是系统仿真
- · 什么是CPCI
- · 英特尔 Parallel Composer入门
- · 什么是支持数据库,什么是中宏数据库
- · 什么是数据交换技术
- · 什么是内部数据传输率
- · 什么是空间数据交换中心
- · 什么是差异备份
- · 什么是备份集
- · 什么是映像备份
- · IGBT模块
- · 什么是24脉波整流变压器
- · 自动变速器不能强制降挡故障原因、诊断与排
- · 什么是MD机
- · 中心频率,什么是中心频率
- · 功率单位mw和dbm的换算表
- · 中值滤波模块设计思路
- · 反馈振荡器的原理
- · 气体激光器简介
- · 数制与进位记数法