信息抽取
信息抽取(Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術。
信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元數據)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。
起源
資訊檢索技術又稱為「訊息理解」(Message Understanding),其主流研究起源於1987年訊息理解會議(Message Understanding Conference, MUC),這個會議主要提倡利用自然語言處理技術,對文字資訊作更深度的剖析,以提高資訊檢索的認知程度。從1987年第一屆會議迄今,MUC已經舉辦過六次會議,每年會中皆會提供文字資料以及標準問題,供與會者以所發展的系統自動抽取訊息,這種競賽方式對於整個領域的技術提昇有很大的助益。
目的
信息抽取的基本任務包含了:
- 命名实体识别(Named entity recognition,又譯「專名辨識」)
- 共指消解(Coreference)
- 术语抽取(Terminology_extraction)
在自然語言處理範疇,資訊擷取技術是雷同於資訊檢索領域的一種類型,它的目的是要以自動化的方式來擷取結構化資訊,例如:在某一個特定領域或是從非結構化機器可讀的文件中,對明確的資料進行分類、判斷上下文以及語義化的分析。
模板分類
資訊擷取技術一般借助事先準備的模板(Template)以擷取特定新聞事件包括人(Who)、事(What)、地(where)與時間(When)等事實(Fact)。因為擷取事實必須對所分析的文件有某種程度的剖析理解能力,在各種資訊檢索研究課題中,資訊擷取技術一直相當仰賴自然語言處理技術,因此是傳統上最典型的智慧型檢索技術之ㄧ。
參考資料
《圖書資訊檢索技術》卜小蝶著:文華,台北市,民85