BabelNet

BabelNet是一个多语词汇语义网络本体,由罗马萨皮恩扎大学(罗马大学)计算机科学系的计算语言学实验室所创建。[1][2] BabelNet是自动构建的,其将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。这种链接整合,以自动映射的方式完成;对于资源匮乏的语言所存在的词汇空缺,借助于统计机器翻译来补充。其结果是一个“百科词典”,提供了多种语言的概念命名实体,并包含了它们之间的丰富的语义关系。通过与免费授权使用的OmegaWiki、英语维基词典维基数据FrameNetVerbNet等语义资源建立链接,BabelNet还补充了其它一些词汇和定义。和WordNet类似,BabelNet将不同语言中的词语以同义词集的形式进行组织,称之为Babel synset。对于每一个Babel synset,BabelNet提供简短的定义(称为注释),这些定义具有多种语言版本,主要来自于WordNet和维基百科。

BabelNet
操作系统
  • Virtuoso Universal Server
  • Lucene
类型
许可协议Attribution-NonCommercial-ShareAlike 3.0 Unported
网站babelnet.org

BabelNet的数据统计

截至2016年8月,BabelNet(v3.7)已覆盖了271种语言,包栝全部的欧洲语言、大多数亚洲语言及拉丁语。BabelNet 3.7包含了大约1400万个同义词集和7.46亿个词义(不论其语言)。在每种语言中,每个Babel synset(词义)平均包含2个同义词。BabelNet的语义网络包含了丰富的词汇语义关系。这些语义关系有两个来源:一是,来自于WordNet的语义关系,如上下位关系、部分整体关系、反义同义关系等,总共大约36.4万条关系;二是,来自于维基百科的非特定的相关关系,总共大约3.8亿条关系。[1] BabelNet 3.7将大约1100万张图片与Babel synset建立了关联,并为这些资源提供了Lemon RDF编码[3],可通过SPARQL endpoint获取。BabelNet 3.7为267万个同义词集指定了领域标签。

应用

BabelNet可广泛应用在多语自然语言处理中。BabelNet中的词汇化知识可在以下任务中取得最佳效果:

Babelnet是一个多语语义网络,由WordNet和维基百科整合而成。

奖励荣誉

BabelNet是一个多语词汇语义网络和本体,因其在克服语言障碍和利用异构数据源方面做了巨大的开创性工作,BabelNet于2015年被授予META页面存档备份,存于奖。

BabelNet是最新的词汇知识资源库,具有巨大创新性,《时代周刊》曾专题报道BabelNet的研究工作[9],认为BabelNet将在21世纪发挥引领作用。

参照

参考文献

  1. R. Navigli and S. P Ponzetto. 2012. BabelNet: The Automatic Construction, Evaluation and Application of a Wide-Coverage Multilingual Semantic Network. Artificial Intelligence, 193, Elsevier, pp. 217-250.
  2. R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network 页面存档备份,存于. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  3. M. Ehrmann, F. Cecconi, D. Vannella, J. McCrae, P. Cimiano, R. Navigli. Representing Multilingual Data as Linked Data: the Case of BabelNet 2.0 页面存档备份,存于. Proc. of the 9th Language Resources and Evaluation Conference (LREC 2014), Reykjavik, Iceland, 26–31 May 2014.
  4. R. Navigli and S. Ponzetto. 2012. BabelRelate! A Joint Multilingual Approach to Computing Semantic Relatedness 页面存档备份,存于. Proc. of the 26th AAAI Conference on Artificial Intelligence (AAAI 2012), Toronto, Canada, pp. 108-114.
  5. J. Camacho-Collados, M. T. Pilehvar and R. Navigli. NASARI: a Novel Approach to a Semantically-Aware Representation of Items 页面存档备份,存于. Proc. of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2015), Denver, Colorado (US), 31 May-5 June 2015, pp. 567-577.
  6. R. Navigli and S. Ponzetto. Joining Forces Pays Off: Multilingual Joint Word Sense Disambiguation 页面存档备份,存于. Proc. of the 2012 Conference on Empirical Methods in Natural Language Processing (EMNLP 2012), Jeju, Korea, July 12–14, 2012, pp. 1399-1410.
  7. A. Moro, A. Raganato, R. Navigli. Entity Linking meets Word Sense Disambiguation: a Unified Approach 页面存档备份,存于. Transactions of the Association for Computational Linguistics (TACL), 2, pp. 231-244, 2014.
  8. D. Jurgens, R. Navigli. It's All Fun and Games until Someone Annotates: Video Games with a Purpose for Linguistic Annotation 页面存档备份,存于. Transactions of the Association for Computational Linguistics (TACL), 2, pp. 449-464, 2014.
  9. Katy Steinmetz. Redefining the modern dictionary 页面存档备份,存于, TIME magazine, vol. 187, 23 maggio 2016, pp. 20-21.

外部链接

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.