你知道搜索引擎是什么吗?

    作者:课课家教育更新于: 2019-01-22 14:12:24

    软考,您想通过吗?一次通过才是硬道理

      现在是一个人人都上网的时代,搜索引擎想必大家都有用过,但是搜索引擎具体是什么,它是如何进行工作的,这些问题大家都知道吗?在这里,我们就来学习一下吧。

      搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网站搜索软件(也称网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。

      获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。

    你知道搜索引擎是什么吗?_搜索引擎_查询_网络搜索软件_网络规划师_课课家 

      工作原理

      当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。根据自己的优化程度,获得相应的名次。

      可想而知,搜索引擎每天每时每刻都在处理着数以万计的信息查询搜索,这个过程必然要遵循一个规则,那规则就是事先定好的搜索引擎工作原理。搜索引擎的工作原理:任何搜索引擎在完成用户一次搜索请求任务都会按照下面三个步骤工作:

      1、抓取网页

      每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

      2、处理网页

      搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

      3、提供检索服务

      用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

      体系结构

      搜索引擎主要由搜索器、索引器、检索器和用户接口构成。

      1.搜索器

      (1)网络蜘蛛:搜索引擎系统结构的搜索器(Spider)俗称网络蜘蛛或网络爬虫,十亿个自动收集网页的系统程序,其功能是日夜不停地在互联网中漫游,搜集信息。它要尽可能多、尽可能快地搜集各种类型的新信息,还要定期更新已经搜索过的旧信息,以避免出现死链接。

      (2)内容提取(文本文件)

      对网页内容的提取,一直是网络蜘蛛重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件机处理,搜索引擎建立索引、处理的对象是文本文件。

      (3)定期更新策略。

      由于网站的内容经常在变化,因此网络蜘蛛也不断地更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查找哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

      2.索引器

      索引器(Indexer)的功能是理解搜索器所搜索的信息,由分析索引系统程序对收集回来的网页进行分析,提取网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键词的相关度(或重要性),然后这些相关信息建立网页索引数据库。

      3.检索器

      检索器(Searcher)的功能是针对用户的查询请求在索引库中快速检出文档,采用一定的信息检索模型进行文档与查询的相关度评价,对将要输出的结果进行排序、聚类等操作,并实现某用户相关性反馈机制。信息检索模型有以下几种:布尔逻辑模型、模糊逻辑模型、向量空间模型、概率模型及混合模型等。

      4.用户接口

      用户接口(UI)的作用是输入用户查询,显示结果查询结果,提供用户相关性反馈机制。UI的主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。UI的实际和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

      分类

      根据搜索引擎提取数据的方法,可将搜索引擎分为三大类。

      1.目录式搜索引擎

      目录式搜索引擎是一种网站级搜索引擎,由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的。缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。

      2.机器人搜索引擎

      这种搜索方式是搜索引擎主动派出称为蜘蛛的机器人程序定期搜索,对一定IP地址范围内的互联网进行检索,一旦发现新的网站,它会自动提取网站的信息和网站加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、无需人工干预。缺点是返回信息过多、有很多无关信息、用户必须从结果中进行筛选。

      3.元搜索引擎

      这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全。缺点是用户需要做更多的筛选。

      本文就到此为止了,希望可以帮助到大家。更多内容大家可以前往课课家教育进行搜索查看阅读,或者可以关注我们的微信公众号【课课家】以及【课课家IT精品课程】。

课课家教育

未登录