泛语语料库

泛语语料库(Pangloss Collection)是位在巴黎的法国国家科学研究中心(CNRS)口传语言与文化研究所(LACITO)所开发的数位图书馆,旨在采集世界各种语言的录音(其中大部分为濒临灭绝的稀有语言),汇聚成一个向大众开放的数位语料库,从而为保护世界语言多样性作出贡献 [1] [2]

该语料库有丰富的语音馆藏,可免费線上存取,囊括了世界各大洲不同类型语言的语音文档(民间故事和传说、生活小品、传统艺人或工匠的口述、词汇或语音调查等等)[3]

截至2018年2月,泛语语料库已收录3559卷录音档、影像档、文字文件[4],总计囊括全球170种语言[5]

原则

配有人工转写文字档的语料库

泛语语料库收录并发布第一手录音檔(近年来也增加了一些影像档)。其中一部分音档经由专家学者人工转写成文字稿和译文,可与原始音档交互参照(包括语音、音韵、拼字)[6] 。每个文档都是根据口传语言与文化科学研究方法,通过母语人士的亲口讲述,由调查人员在该文化背景下忠实地将内容记录下来[7]

辭典

自2002年以来,除了录音跟影像资料之外,泛语语料库还收录了若干辭典[8] ,並在2017年將辭典系列命名为“ Lexica ” [9]

開放式檔案架構

泛语语料库所存档的数据採开源格式,访客可以下载资料原始档案(多数为知识共享Creative Commons许可协定),以便离线使用。资料库网站提供的各式软体工具也属开源软体(开放原始碼)。 此外,泛语语料库很早就采用诸如XML等相容性高的格式,此种格式目前为数位人文科学的主流。 [10]

泛语语料库是语言学资料库“ 开放式语言典藏组织”(OLAC[11])的一员,也是DELAMAN濒危语言资料库协会会员之一[12]

泛语语料库乃CoCoON(COllections de COrpus Oraux Numériques)数位资料馆的资料库之一。CoCoON是一个技术平台,旨在支援口语语料采集人员建立、整理、归档语料库。[13] 其典藏的数据储存在“ 数位人文资料存放平台”Huma-Num[14]上。

历史

2001年時,“ LACITO归档方案”收藏了大约20种语言,共100篇左右的长篇语料[15] 。 2011年,泛语资料库的馆藏库收录了近1000卷的长篇语料,涵盖67种语言,总计350篇语料经过转写和注释[16] 。 馆藏在2014年达到1400篇语料,其中大约有400篇已由人工转写和注释[3] 。2016年10月時,泛语资料库典藏了132种语言[17] 。 其馆藏在2018年2月达到170种语言,3559个录音档跟影像档[18] [19] 。2021年,在新一款自动转写软体的帮助下,转写和归档都方便许多,一个小时便可以抵以往上百小时的工作进度。

参考

  1. . [2021-05-08]. (原始内容存档于2021-11-30).
  2. 米可. . 丽江民族研究. 2012, 5: 36-54 [2024-03-07] HAL-Science.
  3. Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135. http://hdl.handle.net/10125/4621
  4. 资料目录 页面存档备份,存于.
  5. 语言目录 页面存档备份,存于.
  6. Jacobson, Michel; Michailovsky, Boyd; Lowe, John B. . Speech Communication. 2001, 33 (1-2): 79–96 [2017-08-28]. doi:10.1016/s0167-6393(00)00070-4 (english).
  7. Bouquiaux, Luc & Jacqueline Thomas. 1971. Enquête et description des langues à tradition orale. Deuxième édition 1976. Paris: Société d’études linguistiques et anthropologiques de France.
  8. Jacobson, Michel & Boyd Michailovsky. 2002. Linking linguistic resources: time aligned corpus and dictionary. International Workshop on Resources and Tools in Field Linguistics. Las Palmas.
  9. Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées: Lexica, les dictionnaires de la collection Pangloss. Actes des 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble: Université Grenoble Alpes.
  10. Sylvain Loiseau. . http://www.inalco.fr/. 2020-01-06 [2020-01-15]. (原始内容存档于2021-01-14) (法语).
  11. Open Language Archives Community. . Open Language Archives Community. [2021-05-09]. (原始内容存档于2021-12-24).
  12. . [5 avril 2020]. (原始内容存档于2021-11-11) (anglais).
  13. . [2017-09-11]. (原始内容存档于2018-04-10).
  14. . [2021-05-14]. (原始内容存档于2022-01-04).
  15. Jacobson, Michel; Michailovsky, Boyd; Lowe, John B. . Speech Communication. 2001, 33 (1-2): 79–96 [2017-08-28]. doi:10.1016/s0167-6393(00)00070-4 (anglais).
  16. Michailovsky, Boyd, Alexis Michaud & Séverine Guillaume. 2011. A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive. Keynote speech at Oriental-COCOSDA 2011, October 26th-28th, 2011. Hsinchu, Taiwan.
  17. . [2016-11-10]. (原始内容存档于2017-08-04).
  18. 资料目录 页面存档备份,存于.
  19. . [2021-05-08]. (原始内容存档于2021-04-18).

外部链接

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.