
泛语语料库(Pangloss Collection)是位在巴黎的法国国家科学研究中心(CNRS)口传语言与文化研究所(LACITO)所开发的数位图书馆,旨在采集世界各种语言的录音(其中大部分为濒临灭绝的稀有语言),汇聚成一个向大众开放的数位语料库,从而为保护世界语言多样性作出贡献 [1] [2]





泛语语料库收录并发布第一手录音檔(近年来也增加了一些影像档)。其中一部分音档经由专家学者人工转写成文字稿和译文,可与原始音档交互参照(包括语音、音韵、拼字)[6] 。每个文档都是根据口传语言与文化科学研究方法,通过母语人士的亲口讲述,由调查人员在该文化背景下忠实地将内容记录下来[7]


自2002年以来,除了录音跟影像资料之外,泛语语料库还收录了若干辭典[8] ,並在2017年將辭典系列命名为“ Lexica ” [9]


泛语语料库所存档的数据採开源格式,访客可以下载资料原始档案(多数为知识共享Creative Commons许可协定),以便离线使用。资料库网站提供的各式软体工具也属开源软体(开放原始碼)。 此外,泛语语料库很早就采用诸如XML等相容性高的格式,此种格式目前为数位人文科学的主流。 [10]

泛语语料库是语言学资料库“ 开放式语言典藏组织”(OLAC[11])的一员,也是DELAMAN濒危语言资料库协会会员之一[12]

泛语语料库乃CoCoON(COllections de COrpus Oraux Numériques)数位资料馆的资料库之一。CoCoON是一个技术平台,旨在支援口语语料采集人员建立、整理、归档语料库。[13] 其典藏的数据储存在“ 数位人文资料存放平台”Huma-Num[14]上。


2001年時,“ LACITO归档方案”收藏了大约20种语言,共100篇左右的长篇语料[15] 。 2011年,泛语资料库的馆藏库收录了近1000卷的长篇语料,涵盖67种语言,总计350篇语料经过转写和注释[16] 。 馆藏在2014年达到1400篇语料,其中大约有400篇已由人工转写和注释[3] 。2016年10月時,泛语资料库典藏了132种语言[17] 。 其馆藏在2018年2月达到170种语言,3559个录音档跟影像档[18] [19] 。2021年,在新一款自动转写软体的帮助下,转写和归档都方便许多,一个小时便可以抵以往上百小时的工作进度。


