Google翻译

谷歌翻譯英語:)是一項由Google於2006年開始提供的翻譯文段及網頁的服務[3]。與其他網站巴別魚美国在线雅虎使用的SYSTRAN引擎不同的是,Google使用自己開發的翻譯軟件。至2015年6月,Google翻译每天需要處理超過10億筆字詞[4]。2016年,Google翻譯正式於英語-拉丁語翻譯中引入Google神經機器翻譯系統,並已於2017年3月前成功將其拓展至所有語言上[5]

Google翻譯
网站类型
机器翻译
语言133种
持有者Google
创始人Google
网址
商业性质
注册
推出时间2006年4月28日2006-04-28统计机器翻译[1]
2016年11月15日2016-11-15神经机器翻译[2]
现状活躍

Google翻譯提供即時翻譯功能(即時輸入即時翻譯),使用者可以在左邊的輸入欄位輸入文字,翻譯結果會即時在右邊的結果框顯示。將鼠標移到翻譯結果文字上可以看到其對應的原文。此外,Google翻譯亦提供朗讀功能(包括原文和譯文),使用者亦可查看中文拼音日文羅馬字、及韓文似,Google翻譯亦有其自身功能侷限。雖然用戶可以通過其幫助來大致理解以外文書寫的文章大意,但Google翻譯服務無法提供準確的譯文,也不能提供可用於出版的內容,例如,它經常會不依據上下文來翻譯詞彙,而且會在翻譯時不遵守語法規則,這是因為其機器翻譯算法與傳統的基於語法分析的算法不同,採用的是基於統計分析的算法。而Google翻译的质量也与语种有关,当源语言是一种欧盟语言,而目标语言是英语时,往往质量较好。2010年的分析显示,法语到英语的翻译相对準確[6],2011年和2012年的分析显示意大利语到英文的翻译同样相对準確[7]。2021年,加州大学洛杉矶分校医学中心(UCLA Health)的一項研究表明,英語翻譯至西班牙語的準確率有94%,英語翻譯至亞美尼亞語的準確率只有55%[8]。然而,当所翻译的文本较短时,其他规则法机器翻译(rule-based machine translation)却表现得更好,这在中文到英语的翻译中尤为明显[6]

世界各地Google翻译朗读使用的英语口音
  英国英语(女声)
  美国英语(女声)
  大洋洲口音(女声)
  印度口音 (女声)
  无Google翻译服务

使用较广泛的语言都有“朗读”功能,对多中心语言而言,朗读采用的口音取决于所在地区。

方法

Google翻譯採用的翻譯方法稱作“統計機器翻譯”,具體而言,採用的是基於Franz-Josef Och參加2003年美國國防部高級研究項目局(DARPA)的機器速度翻譯競賽時獲獎的研究成果。Och現在領銜Google機器翻譯小組。

根據Och的說法[9],若想要開發一個可用於翻譯一對全新語言對的統計機器翻譯系統,必須做好如下的數據基礎蒐集才能有保障:一個擁有百萬的單字數量級別的雙語文本語料庫(或者其平行庫集合),以及屬於這兩種語言的單語語料庫,各自得擁有十億以上的單字。然後,用於翻譯這一對語言的機器翻譯結果就會通過這些數據產生的統計模型而得出。

為了獲取這種海量容量的語言學資料,Google採用了聯合國文檔作為語料庫內容來源。[10]由於同樣的一份聯合國文檔通常會有屬於六種聯合國官方語言的譯本,因此,Google如今就擁有了一個相當於經人工翻譯了兩百萬單字的七種語言的語料庫。

而這一點很可能就是Google翻譯之所以一開始專注的是開發英語阿拉伯語中文之間的翻譯系統,而非英語和日語或英語和德語這兩對語言之間的翻譯系統的原因。因為阿拉伯語和中文屬於聯合國六種官方語言,而日語、德語不是。

翻译语言

目前Google支持翻译133种语言。

2008年5月以前(按开始提供的时间顺序排列)

2008年9月25日开始

2009年1月30日开始

2009年6月19日开始

2009年8月25日开始

2010年1月25日开始

2010年5月13日开始[11]

2010年9月25日开始

2011年6月21日开始[13]

2012年2月22日开始

2012年9月开始

2013年4月开始

2013年5月开始

2013年12月开始

2014年12月开始

2016年2月开始

2020年3月开始

2022年5月开始

正在开发的語言

这些语言还没有被Google翻译支持,但在翻译社群中有提供。[16]


  1. 粤语
  2. 切罗基语
  3. 罗曼什语
  4. 西西里语
  5. 塔玛哲特语(tzm)
  6. 藏语
  7. 沃洛夫语
  8. 阿法尔语
  9. 博多语
  10. 布列塔尼语
  11. 车臣语
  12. 恰蒂斯加尔语
  13. 吉汤加语(Chitonga,尚比西語 Zambezi)
  14. 吉大港语
  15. 卢欧语
  16. 迪尤拉语
  17. 伊多语
  18. 埃菲克语
  19. 埃桑语
  20. 丰语
  21. 嘉华语
  22. 哈里亚纳語
  23. 伊努克提图特语
  24. 卡姆巴语,Kikamba (基坎巴语)
  25. 基库尤语
  26. 卢巴加丹加语
  27. 摩揭陀语
  28. 马尔瓦里语
  29. 米南佳保语
  30. 黑山语
  31. 莫西语
  32. 尼日利亚皮钦语
  33. 尼瓦尔语
  34. 北萨米语
  35. 北索托语
  36. 邦板牙语
  37. 萨德里语
  38. 萨莫吉提亚语
  39. 塞拉诺语
  40. 茨瓦纳语
  41. 南恩德贝莱语
  42. 苏贾普尔语
  43. 刚果斯瓦希里语民主刚果swc)
  44. 卢巴開賽(Luba-Kasai,西盧巴語 Western Luba,齊鲁巴語/奇卢伯语 Ciluba/Tshiluba)
  45. 文达语
  46. 瓦尔哈迪-那加普里语
  47. 宗喀语
  48. 茨瓦语
  49. 桑塔利语
  50. 克什米尔语

停止开发的语言

  1. 卢欧-阿乔利语(Luo)(Acholi 阿乔利语)
  2. 奥里贝什文(2015年11月推出,2016年2月删除)

机械朗读

人声朗读

女声

中性聲音

男声

整合

瀏覽器

划取翻译功能是现代浏览器的重要基础功能,翻译的集成意味着打破文化壁垒,Opera和Firefox的翻译插件亦是利用谷歌翻译API作为扩展程序的核心外部接口。不过当下许多浏览器厂商,在浏览器大战背景下,出于激烈竞争,已经做出了一站式服务,例如Windows10中自带的MicrosoftEdge,微软专门为此定制了浏览器插件版的微软必应翻译。

字典軟件

开发者可以利用谷歌提供的API,对软件集成联网翻译功能。这些软件通常是通过集成翻译功能,实现对原有用途的用户需求满足,所完善而来。例如阅读软件、在线资料搜索时集成的WebJS小程序,由于信息技术的普遍应用和入口之争以及成熟度,目前已不再有着垄断地位,也就不存在增加翻译功能需要收费或是插广告,除非是态度问题,否则一般会作为硬性标准。

掌上翻译程序/电子词典

当今智能手机和平板电脑平台上,亦有很多基於Google翻譯而衍生成的翻译软件。不但在今日动则几十M的软件膨大趋势下做到了体积小巧,而且可以下载离线字典调用,甚至可以翻译屏幕上光标停按的部分。

争议

中文政治类误译事件

中文谷歌翻译曾多次在两岸关系中国内地与香港关系等政治类议题上出现误译,引发争议。

2006年、2007年,谷歌翻译相继出现「辱华」翻译,「I thought this was shame(我认为这是一个耻辱)」被误译为「我认为这是中国的耻辱」,「物极必反」被误译为「Taiwan independence(台湾独立)」。[17]

2012年,有网友发现「Taiwan is not a part of China(台湾不属于中国)」被误译为「台湾是中国的一部分」。若将句中的台湾换成其他国家,误译同样成立。另外无论输入「Diaoyu Islands is not a part of Taiwan」或「Diaoyu Islands is not a part of Taiwan」,均会出现「钓鱼岛属于台湾」。[18]

2018年,谷歌翻译在「A比B厉害」这一类句子的翻译上出现错误,「中国比台湾厉害」被翻译成「China is worse than Taiwan」,即「中国比台湾差」[19][20]

2019年香港反对逃犯条例修订草案运动期间,网友发现「so sad to see Hong Kong became China(很难过看到香港变成中国)」被误翻译为「很高兴看到香港变成中国」。网友猜测有组织对谷歌翻译进行攻击,从而影响翻译结果。[21]

2020年,台湾网友指谷歌翻译即使在选择繁体中文的情况下,仍会出现较多中国大陆习惯用语,如「President Tsai Ing Wen(蔡英文总统)」竟被翻译成「蔡英文主席」。同样的错误在微软翻译中也有发生。有台湾网友担忧台湾习惯用语会因翻译软件流行而被大陆习惯用语取代。[22]

2021年1月,有网友发现「China breaks promise(拉)」被误译为「中国信守承诺」。但将中国替换成其他国家后并不会出现错误翻译。[23]

2021年11月26日,有中国大陆网友发现,在谷歌翻译的英文翻中文程序中,在英文对话框输入“艾滋病毒”等相关词汇,对应的中文翻译就会出现恶毒攻击中国的词汇[24]。该消息经部分媒体及安徽团省委的微博发布后,一度登上微博热搜,并导致大批中国大陆网友在评论区表示抗议,称该事件为“人为导致”,也有网友在验证后发现部分结果还出现攻击美国、俄罗斯等国的词语。同日晚间,Google官方微博@Google黑板报先是在北京时间22:03发布微博,表示“我们已经了解到Google翻译出现的问题并正在解决。”随后在23:14分,Google在微博上表示问题已经解决,并称“Google翻译是一个自动翻译器,通过数百万已有翻译的模式为用户找到最佳翻译,然而有些模式会导致错误的翻译。”[25]而有网友在验证后表示,该事件疑似为有预谋及通过机械学习等行为操纵的行为,所谓“辱华”流程的验证逻辑与用户的正常使用习惯不同,该次事件与2009年谷歌涉黄事件之中出现“儿子母亲不正当关系”等“涉黄”联想词的行为类似[26]

俄文误译事件

2022年4月9日,据多家俄罗斯媒体报道,在谷歌翻译的英文翻俄文程序中,在英文对话框中输入词组“亲爱的俄罗斯人(dear russians)”后,程序会建议将该词组替换成“死去的俄罗斯人”,并且在翻译后的俄文对话框中该词组中的形容词“亲爱的”会被替换成“死去的”,但是在翻译该词组中带有其他国家的名称时,则没有出现上述错误。[27]目前Google已纠正该错误。

于中国大陆之现状

2014年5月31日起,Google所有服务(各个IP段)在中国被大规模干扰至今[28],但因为翻译及地图网页版服务有域名后缀为.cn的入口,并且使用了专门设立在中国境内的服务器和IP地址,所以翻译及地图网页版仍然能正常服务。

2017年3月29日起,中国大陆用户可以直接使用Google翻译而不需要使用代理。在此之前,翻译需使用代理而无法直接翻译,但下载离线翻译包后可使用离线翻译进行翻译。[29][30]

2021年9月初,大量用户表示谷歌翻译app在不使用代理的情况下仅可使用转录,但网页版还能正常使用。

2022年9月26日,谷歌中国搜索页面到Google翻译的链接被移除[31]。9月29日,Google将位于.cn域名的Google翻译网站关闭,只留下一个到.hk域名的跳转页面,并像搜索页面一样标记“请收藏我们的网址”[32][33],这意味着Google翻译服务已不在谷歌中国的网站上提供。9月30日,一名Google发言人告诉TechCrunch关闭该服务的原因是“使用率低”[34][35]。这一变化影响了中国用户的文档查看器KOReader等应用程序的翻译功能,以及Chrome的内置翻译功能[35][36][37]

彩蛋

Google翻译曾经内置有一个小彩蛋,在输入特定文字后让程序朗读,可以输出Beatbox的效果。[38]目前该彩蛋已经移除。

參見

參考資料

  1. Orch, Franz. . Google Research Blog. April 28, 2006 [December 1, 2016]. (原始内容存档于2017-03-20).
  2. Turovsky, Barak. . The Keyword Google Blog. November 15, 2016 [January 11, 2017]. (原始内容存档于2017-04-07).
  3. . [2019-01-24]. (原始内容存档于2016-02-14).
  4. . ETtoday新聞雲. 2015-06-24 [2015-06-27]. (原始内容存档于2019-12-11).
  5. . [July 9, 2017]. (原始内容存档于2021-01-12).
  6. . (原始内容存档于2011-02-10).
  7. . [2013-08-29]. (原始内容存档于2013-11-07).
  8. . [2021-03-20]. (原始内容存档于2021-04-19).
  9. 於2005年機器翻譯峰會上的主旨演講
  10. . [2009-01-06]. (原始内容存档于2021-01-18).
  11. . Google. 2010-05-13 [2010-10-11]. (原始内容存档于2016-05-27) (英语).
  12. . Google. 2010-09-30 [2010-10-11]. (原始内容存档于2020-11-09) (英语).
  13. . Google Translate Blog. [2020-10-10]. (原始内容存档于2020-12-30).
  14. . Google. 2012-02-22 [2012-03-17]. (原始内容存档于2016-03-05) (英语).
  15. . IT之家. 2020-02-27 [2020-03-21]. (原始内容存档于2020-03-21).
  16. . [2016-06-07]. (原始内容存档于2017-09-15).
  17. . donews. [2021-12-09]. 原始内容存档于2007-05-09.
  18. . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
  19. . 新浪. [2021-12-09]. (原始内容存档于2022-04-06).
  20. . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
  21. . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
  22. . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
  23. . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
  24. 丁洁芸. . 环球网. [2021-11-27]. (原始内容存档于2022-04-21).
  25. . 俄罗斯卫星通讯社. [2021-11-27]. (原始内容存档于2021-11-27).
  26. . 微博. [2021-11-27]. (原始内容存档于2022-04-21).
  27. . 环球网. [2022-04-12]. (原始内容存档于2022-04-21).
  28. . Google. 2014-05-31 [2014-07-08]. (原始内容存档于2017-05-15).
  29. . [2017-03-29]. (原始内容存档于2017-03-30).
  30. . [2017-03-29]. (原始内容存档于2017-03-30).
  31. 移除前:26日5:58的存档,存档于(存檔日期 2022-09-26)
    移除后:26日9:26的存档,存档于(存檔日期 2022-09-26)
  32. . Solidot. 2022-09-29 [2022-09-29]. (原始内容存档于2022-09-29).
  33. . [2023-09-09]. 原始内容存档于2022-09-29.
  34. Kyle Wiggers. . TechCrunch. 2022-09-30 [2022-10-01]. (原始内容存档于2022-10-01).
  35. ugmbbc. . 中文业界资讯站. 2022-10-01 [2022-10-01]. (原始内容存档于2022-10-01).
  36. 蔡苡柔. . 香港01. 2022-10-03.
  37. 唐正. . 新唐人电视台. 2022-10-03 [2022-10-06]. (原始内容存档于2022-12-02).
  38. Aamoth, Doug. . Time. [2019-09-25]. (原始内容存档于2018-05-04).

外部链接

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.