信息檢索

資訊檢索英語:)是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。

自动信息检索系统用于减少所谓的“資訊超載”。许多大學公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最常见的IR应用程序。

概述

当用户向系统输入查询时,信息检索过程开始。查询是信息需求的正式声明,例如在Web搜索引擎中的搜索字符串。在信息检索中,查询不会唯一地标识集合中的单个对象。相反可以有不止一个对象匹配查询,它们可能具有不同程度的相关性。

对象是由内容集合或数据库中的信息表示的实体。用户查询要与数据库信息进行匹配。然而,与数据库的经典SQL查询相反,在信息检索中,返回的结果可能匹配或不匹配查询,因此结果通常被排名。这种结果排名是信息检索搜索与数据库搜索相比的关键区别。[1]

根据应用,数据对象可以是文本文档、图像[2]、音频[3]思维导图[4]或视频等。通常文档本身不保存或直接存储在IR系统中,而是以文献替代或元数据在系统中表示。

大多数IR系统对数据库中的每个对象与查询匹配的程度计算数值分数,并根据此值对对象进行排名。然后向用户显示排名靠前的对象。如果用户希望细化查询,则可以重复该过程。[5]

信息检索的类型

按照检索手段,可分为:

  • 传统信息检索(手工检索)和
  • 现代信息检索(计算机检索);

按照检索内容,分为:

  • 书目检索、
  • 数据检索、
  • 事实检索、
  • 全文检索
  • 图像检索:例如:Google images
  • 多媒体检索:例如:SoundHound(聲頻檢索)。

信息检索的主要技术指标

傳統的指標:

  • 齊全率
  • 準確率
  • 检索速度

常用的指標代號:

  • :兩個檢索的交集
  • :檢索結果的數量
  • 積分
  • 求和
  • :对称差

检索系统

運用一定的方法從某種資訊媒介上(包括書、硬碟、光碟等) 的資料中查找所需要情報的系統。一般可區分為手工情報檢索系統(檢索卡)、機械情報檢索系統(微縮卷)和計算機情報檢索系統三大類。

ProQuest是目前最大及歷史最悠久的情報檢索服務供應商,從1938年起就開始為學校把期刊製成微縮膠卷來儲存 [6]。這些膠卷在數碼以後,繼續以光碟陣及網上服務的形式為學校提供過期期刊內容的存取服務[7]

以下為市面上比較常見的情報系統:

  • DIALOG
  • Ovum
  • Emerald
  • ABI

參考文獻

  1. Jansen, B. J. and Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval 页面存档备份,存于. Journal of the American Society for Information Sciences and Technology. 61(8), 1517-1534.
  2. Goodrum, Abby A. . Informing Science. 2000, 3 (2).
  3. Foote, Jonathan. . Multimedia Systems (Springer). 1999.
  4. Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf. . Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. 2009 [2016-12-16]. (原始内容存档于2011-05-13).
  5. Frakes, William B. . Prentice-Hall, Inc. 1992 [2016-12-16]. ISBN 0-13-463837-9. (原始内容存档于2013-09-28).
  6. . [2014-05-21]. (原始内容存档于2008-11-01) (英语).
  7. . Information Today. 2014 [2015-10-24]. (原始内容存档于2017-07-01).

參見

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.