機器翻譯史
一般認爲,機器翻譯的歷史始於1950年代。雖然相關理論和研究更早之前就已經進行,但在1954年初的喬治城大學的實驗是機器翻譯史中的一個里程碑,該實驗成功以電腦將四十多條俄文句子自動翻譯成英文,標誌著現代機器翻譯的開端。美國也因此投入了大量資金研究機器翻譯。上述實驗的研究人員聲稱在三或五年內,機器翻譯中遇到的語言邏輯的困難將會迎刃而解[1]。蘇聯的研究人員隨後也進行了類似的實驗。
然而,實際進展比預期慢得多。1966年,自動語言處理顧問委員會(Automatic Language Processing Advisory Committee, ALPAC)報告發現十幾年來的研究未能達到預期的成果,並認爲機器翻譯在短期内不會取得突破性進展。此報告一出,相關的研究經費大幅萎縮。直至1980年代後期,由於電腦運算效能的提升及電腦成本的降低,研究的重心開始放在機器翻譯統計模型上。
至今仍沒有一個程式系統能夠達到—「全自動優質翻譯任何文體」(fully automatic high quality translation of unrestricted text)的境界。[2][3][4]。然而,現在有很多程式在嚴格限制下能提供準確的翻譯。其中有些是網絡服務,如Google翻译和SYSTRAN系統。後者為AltaVista的BabelFish提供技術支援(BabelFish自2008年5月9日為雅虎所有,2012年5月被微軟Bing翻譯取代)
起源
機器翻譯可追溯至9世紀的阿拉伯密碼學家肯迪(Al-Kindi)的工作,他開發了系統語言翻譯技術,包括現代機器翻譯中所使用的密碼分析、頻率分析以及機率統計。[5]十七世紀時,哲學家如萊布尼茲與笛卡爾提出代碼字,把字和語言聯繫。但這些建議仍然是理論,沒有發展成實際的機器。1629年,笛卡爾提出了一種通用語言,不同語言的同意義思想共享一個符號。[6]
最早的「翻譯機」是喬治·阿氏羅利(Georges Artsrouni)於1930年代中期所申請的專利,是一個使用紙帶的自動雙語詞典。俄羅斯人彼得·特洛揚斯基(Peter Troyanskii)則提出另一項更詳細的方案。該方案包含了雙語詞典,以及根據世界語的文法系統來處理語言間的文法作用的方法。系統被分爲三個階段:第一階段由以源語言為母語的編輯者,將詞彙組織成邏輯形式並進行句法功能;第二階段是讓機器將這些形式「翻譯」成目標語言;第三階段需要以目標語言為母語的編輯者將此輸出正規化。他的計劃仍默默無聞,直至1950年代末期,特洛揚斯基的提案才為人所知,而那時電腦已是衆所周知並被使用。
早期發展
時任洛克菲勒基金會的研究員的沃倫·韋弗於1949年7月,在他發表的名為「翻譯」的備忘錄中首次提出了基於電腦來進行機器翻譯的構想。[7]這些構想是基於資訊理論、二戰期間密碼破譯的成功、關於自然語言根本的普遍原則的理論。
幾年後,許多美國的大學開始認真研究這些想法。1954年1月7日,在紐約的IBM總公司首次於乔治城-IBM实验中公開展示了機器翻譯系統。此次展示亦廣泛獲得報紙報導,引起公眾的興趣。然而該系統只能被稱為「兒戲」,一共只有250字和49句經小心篩選的俄文句子翻譯為英文,主要是化學方面的内容。儘管如此,它仍促進了一個觀點:「機器翻譯即將成爲現實」;不但刺激了美國,還刺激了世界上許多國家對該項研究投入資金。[1]
早期的機器翻譯系統是透過使用大型雙語詞典和手動編碼的規則來定位輸出結果的詞序,但這類系統最終在當時的語言學發展中被認為限制過多,因此如生成語言學和轉換生成語法都被用來試圖改善機器翻譯的品質。
在此期間,操作系統被安裝。美國空軍使用的系統是由IBM 和華盛頓大學生產,而位於美國的原子能委員會和於義大利的歐洲原子能組織使用的系統則是由喬治城大學所開發。儘管輸出的品質粗劣,但它仍然滿足了許多客戶在速度方面的主要需求。
在1950年代末,美國政府要求以色列的哲學家、語言學家及數學家耶霍舒亞·巴爾-希勒爾(Yehoshua Bar-Hillel)調查可否利用機器執行全自動高品質的翻譯。耶霍舒亞提出了一個關於語義歧義或雙重意義的難題。試分析以下句子:
Little John was looking for his toy box. Finally he found it. The box was in the pen.
“Pen”這個詞可以有兩個含義,第一個含義指人們用來書寫的工具,第二個含義指某種容器。對人而言,其含義顯而易見,但他聲稱如果沒有「萬用百科全書」,機器將永遠無法處理這個問題。當時,這種類型的語義歧義只能以約限語言為機器翻譯編寫源語言文本來解决,這種約限語言所用的詞彙只會有一個確切的含義。
1960年代、自動語言處理顧問委員會報告及1970年代
美國與蘇聯於1960年代的研究,主要都集中在英文與俄文的語言配對翻譯。翻譯的主要對象是科學和技術上的文件,如科學期刊的文章。粗糙的翻譯足以了解文章的基本內容。如果討論的主題被視為是機密,它會被送往人類譯者以取得完整的版本,不是的話則被捨棄。
機器翻譯研究在1966年隨著ALPAC報告的出版遭受了巨大的打擊。該報告由美國政府委託,由自動語言處理顧問委員會發佈,美國政府於1964年召集七名科學家組成該委員會。美國政府擔心投入了大量資金之後卻進展不大。該報告的結論是「機器翻譯相較於人工翻譯更昂貴、更不准確、速度更慢,且儘管花費巨大,機器翻譯仍不太可能在不久的將來達到人工翻譯的水準。」
然而,該報告也建議開發一些工具來幫助翻譯人員(例如自動詞典),並應該繼續支持某些計算語言學的研究。
該報告的發表對美國的機器翻譯研究產生了深遠的影響,對蘇聯和英國的影響則較輕微。美國的機器翻譯研究幾近中止至少超過十年。然而相關研究在加拿大、法國和德國仍持續進行。在美國的主要例外有Systran(彼得•托馬創立)和Logos(伯納德•斯科特創立),他們分別在1968年和1970年成立了自己的公司,並為美國國防部服務。1970年,美國空軍安裝了Systran系統,歐洲共同體委員會隨後也在1976年安裝該系統。METEO系統是由蒙特婁大學開發,並於1977年安裝在加拿大,負責將天氣預報從英語翻譯成法語,在2001年9月30日被競爭對手的系統取代之前,METEO系統每天翻譯近8萬字,每年翻譯近3000萬字。[8]
1960年代的研究集中在有限的語言配對和輸入上,而1970年代受全球化以及加拿大、歐洲和日本對翻譯的需求影響,刺激了對低成本機器翻譯系統的需求,目的是為了用於翻譯一系列技術和商業文件。
1980年代和1990年代早期
到了1980年代,用於機器翻譯的安裝系統在多樣性和數量上都有所增加,許多依賴大型計算機技術的系統投入使用,例如Systran、Logos、Ariane-G5和Metal。
由於微型電腦的可用性提高,形成了低端機器翻譯系統市場。歐洲、日本和美國的許多公司都利用了這一點,而系統也被引入了中國、東歐、韓國和蘇聯市場。
1980年代,日本的機器翻譯活動非常活躍。隨著第五代計算機的計畫,日本打算在計算機硬體和軟體方面超越競爭對手,許多大型日本電子公司參與了與英語互譯的項目(富士通、東芝、NTT、兄弟、Catena、三菱、夏普、三洋、日立、NEC、松下、弘電社、Nova、沖電氣)。
1980年代的研究通常依賴於各種中介語言表徵來進行翻譯,包括構詞學分析、句法分析和語義分析。
1980年代末,新的機器翻譯方法大量湧現。IBM開發了一個「基於統計方法」的系統。Makoto Nagao與其團隊使用了基於大量翻譯範例的方法,這種技術現在稱為「基於實例」的機器翻譯[9][10]。這兩種方法的一個顯著特點是忽略了語法和語義規則,而是依賴於對大型文本語料庫的操作。
在1990年代,受語音辨識和語音合成技術成功的鼓舞,隨著德國Verbmobil專案發展,開啟了語音翻譯研究。
前向區域語言轉換器(FALCon)系統是美國陸軍研究實驗室設計的一種機器翻譯技術,1997年投入戰場,為波斯尼亞的士兵翻譯文件[11]。
由於低成本和功能更強大的計算機的出現,機器翻譯的使用有了顯著的增長。1990年代初,機器翻譯開始從大型電腦向個人計算機和工作站過渡。兩家公司Globalink和MicroTac曾一度引領個人電腦市場,之後兩家公司的合併(1994年12月)被認為符合兩者的利益。Intergraph和Systran也在這個時候開始提供PC版本,網站也可以在互聯網上找到,例如AltaVista的巴別魚(使用Systran技術)和谷歌語言工具(最初也只使用Systran技術)。
2000年代
機器翻譯領域在2000年代發生了重大變化,大量的研究投入了統計機器翻譯和基於實例的機器翻譯。在語音翻譯領域,研究重點則是將翻譯系統從領域限定的系統轉向領域不限定的系統。在歐洲的不同研究專案(如TC-STAR)[12]和美國(STR-DUST和US-DARPA-GALE)[13],已經制定了自動翻譯議會演講和廣播新聞的解決方案。在這些場景中,內容翻譯不再局限於任何特定領域,而是要涵蓋各種主題。法德合作的Quaero專案研究了「為多語言互聯網上使用機器翻譯的可能性」。該項目不僅要翻譯網頁,還要翻譯互聯網上的影片和音頻檔案。
這段時期只有幾間公司將統計機器翻譯投入商業用途,例如Omniscien Technologies(前身為亞洲在線),SDL / Language Weaver(銷售翻譯產品和服務),Google(在Google的語言工具中,將其專屬的統計機器翻譯系統用於某些語言組合)[14],微軟(使用其專有的統計機器翻譯系統翻譯知識庫文章)和Ta with you (提供基於統計機器翻譯領域與一些語言知識的適應機器翻譯解決方案)。隨著研究人員將句法和形態(即語言)的知識結合到統計系統,並結合了現有基於規則系統的統計資料,研究人員開始對混合技術產生了興趣。
2010年代
神經機器翻譯 (NMT) 方法在這段時期取代了統計機器翻譯。神經機器翻譯一詞是由Bahdanau等人[15]和Sutskever 等人[16]所創造,他們在2014年發表了第一篇關於該主題的研究。神經網路只需一小部分統計模型所需的記憶體,且整段句子能以整合的方式建模。百度於2015年推出了第一個大規模的神經機器翻譯系統,Google隨後於2016年推出了Google神經機器翻譯系統 (GNMT),緊隨其後的是DeepL翻譯等其他翻譯服務,微軟翻譯等老式的翻譯服務也改用了NMT技術。
神經網路使用的是被稱為序列到序列 (seq2seq) 的單一端到端神經網路架構,這種架構使用了兩個遞迴神經網路 (RNN):「編碼器」和「解碼器」。編碼器在源句子上使用編碼向量,解碼器則根據先前的編碼向量產生目標句子。[17]注意力層、轉換技術和反向傳播技術的進展使神經機器翻譯變得靈活,並被應用到大多數的機器翻譯、摘要(summarization)和聊天機器人技術。[18]
參考文獻
- Hutchins, J. (2005)
- . [2011-02-16]. (原始内容存档于2011-05-25).
- . [2011-02-16]. (原始内容存档于2012-07-16).
- (PDF). [2011-02-16]. (原始内容 (PDF)存档于2018-09-28).
- DuPont, Quinn. . Amodern. January 2018, (8) [2023-03-11]. (原始内容存档于2019-08-14).
- 浜口, 稔. . 工作舎. 30 April 1993: 70–71. ISBN 978-4-87502-214-5.
普遍的文字の構築という初期の試みに言及するときは1629年11月にデカルトがメルセンヌに宛てた手紙から始まる、というのが通り相場となっている。しかし、この問題への関心を最初に誘発した多くの要因を吟味してみると、ある種の共通の書字という構想は明らかに、ずっと以前から比較的なじみ深いものになっていたようである。…フランシス・ベイコンは、1605年出版の学問の進歩についてのなかで、そのような真正の文字の体系は便利であると述べていた
translated from Knowlson, James. . 1975. ISBN 978-0-8020-5296-4. - Weaver memorandum (March 1949) 的存檔,存档日期2006-10-05.
- . Canadian International Trade Tribunal. 30 July 2002 [10 February 2007]. (原始内容存档于6 July 2011).
- Nagao, Makoto. (PDF). . New York: Elsevier North-Holland, Inc.: 173–180. 1984 [2019-09-17]. ISBN 0-444-86545-4. (原始内容 (PDF)存档于2020-11-25).
- . Association for Computational Linguistics. [10 March 2010]. (原始内容存档于2010-06-12).
- White, John S. . Springer. 2003-07-31. ISBN 9783540399650 (英语).
- . [25 October 2010]. (原始内容存档于2021-01-16).
- . [25 October 2010]. (原始内容存档于2010-11-11).
- . [12 February 2018]. (原始内容存档于2018-02-12).
- Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua. . Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Stroudsburg, PA, USA: Association for Computational Linguistics). 2014: 1724–1734. S2CID 5590763. arXiv:1406.1078 . doi:10.3115/v1/d14-1179.
- Tachioka, Yuuki; Watanabe, Shinji; Le Roux, Jonathan; Hershey, John R. . 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP) (IEEE). December 2014: 572–576. ISBN 978-1-4799-7088-9. S2CID 767028. doi:10.1109/globalsip.2014.7032182.
- De-Yu, Chao. . Medium. 2021-06-04 [2022-12-09]. (原始内容存档于2022-12-09) (英语).
- . TranslateFX. [2022-12-09]. (原始内容存档于2022-12-09) (英语).