源-滤波器模型

源-滤波器模型将语音表示为生源(如声带)和线性声滤波器(声道)的组合。虽然这只是近似,但由于其相对简单,被广泛用于语音合成分析等多个领域。它还与线性预测有关。该模型的发展在很大程度上要归功于Gunnar Fant、Ken Stevens等人,他们对语音声学分析和语音合成的基础模型做出了重大贡献。[1]千葉勉和梶山正登首次提出了元音的语言声学特征与声道形状之间的关系,Fant的成果正是建立在他们的研究之上。[1]

使用源-滤波器模型的一个重要前提是声源和滤波器的独立性。[1]这时,该模型应更准确地称为“独立源-滤波器模型”。

历史

1942年,千葉勉和梶山正登在《元音:其性质与构造》中发表了对元音声学和声道的研究成果。通过使用放射摄影技术创建声道模型,他们可以预测不同元音的共振峰频率,建立了两者间的关系。先锋语音科学家Gunnar Fant在《语音产生的声学原理》中,利用千葉勉和梶山正登的声道摄影研究来解释自己的俄语语音数据,建立了源-滤波器模型。[2]

应用

不同音素可在不同程度上根据声源特性和频谱形状加以区分。浊音素(如元音)至少有一个声源,主要是周期性声门激励,时域上可以用脉冲序列近似表示,在频域上可以用谐波近似表示;滤波器则取决于舌位和圆唇等因素。[3][s][f]擦音则至少有一个声源,因为口腔或的收缩处会产生湍流。[z][v]等浊擦音则有两个声源,一个在声门,一个在声门上的收缩处。

语音合成

在实现语音合成的源-滤波器模型时,声源或激励信号通常被模拟为周期性脉冲串、用于浊语音或清语音的白噪声。在最简单的情况下,声道滤波器近似于全极滤波器(all-pole filter),其系数通过线性预测获得,以最小化待重现语音信号的均方误差。然后,将激励信号与滤波器响应进行卷积,即可生成合成语音。

模拟人声的产生

声道中声源和滤波器的一种可能组合。

言语过程的声源是声带,收缩时可产生周期性声波,放松时可产生非周期性(白噪声)声波。[4]滤波器则是声道的其他部分,可以通过对、口腔和鼻腔的发生动作改变形状。[3]Fant将声源和滤波器分别粗略地比作发声态调音。声源产生振幅不同的谐波,通过声道,经过放后产生语音。[4]

另见

  • 逆滤波器

参考文献

  1. Arai, Takayuki. . (PDF). 2004: 115–120 [2023-10-29]. (原始内容存档 (PDF)于2023-10-29).
  2. Fant, Gunnar. . Journal of the Phonetic Society of Japan. 2001, 5 (2) [2020-07-03]. doi:10.24467/onseikenkyu.5.2_4. (原始内容存档于2023-10-29).
  3. Fant, Gunnar. . De Gruyter. 1970 (英语).
  4. Zsiga, Elizabeth C. . John Wiley & Sons. 2012 [2023-10-29]. ISBN 978-1-118-34060-8. (原始内容存档于2023-10-29) (英语).
  • Chiba, T.; Kajiyama, M. . Tokyo: Tokyo-Kaiseikan Pub. Co., Ltd. 1942.
    (there were reprinted edition in 1952, and Japanese translated edition in 2003 页面存档备份,存于 as ISBN 4-00-002107-9)
  • Stevens, K. N. . Journal of Phonetic Society of Japan. 2001, 5 (2): 6–7.
  • Stevens, K. N. . Cambridge, MA: MIT Press. 1998 [2023-10-29]. ISBN 978-0-262-19404-4. (hardcover in 1999) / (paperback in 2000). (原始内容存档于2023-10-29).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.