語音編碼
語音編碼(Speech coding),是一種包含說話的數位音訊信號資料壓縮應用。語音是人類交流資訊最自然、最有效、最方便的手段,因此大多數通信系統都要包含語音傳輸的功能。隨著科技的發展,雖然影像、數據等非語音信息在資訊傳遞中所占的比例越來越大,但是有效地傳遞語音信號仍是眾多通信系統必備的功能之一。
語音通信最早可以追溯到1876年貝爾發明的電話機,該裝置首次利用聲電、電聲轉換技術實現了遠距離的語音訊號傳輸。早期的語音通訊裝置採用的是模擬語音通訊,但它在可靠性、抗干擾能力、快速交換等方面存在很多問題。自從1960年代積體電路出現以後,通訊通道和通訊終端開始從模擬系統演變為全數位系統。與模擬通訊相比,數位通訊在可靠性和抗干擾能力等方面具有很大優勢,但不足之處是占用的頻帶較寬。為了節省數位語音信號傳輸所需要的頻寬,語音編碼技術開始得到深入研究。
語音編碼屬於信源編碼範疇,自從1930年代末提出脈衝編碼調變(PCM)原理以及聲碼器(Vocoder)概念後,語音編碼一直沿著這兩個方向發展,它們也可以稱為語音訊號的波形編碼與聲碼化編碼或稱為非參數編碼與參數編碼,參數編碼有時也稱為模型編碼。
隨著電腦的發展以及大規模、超大規模積體電路的出現,語音編碼技術取得了很多突破性的進展,研究出了很多實用的語音編碼方案,應用在不同的語音通訊系統中,並在不斷地研究、改進中得以完善,逐漸形成國際性或者地區性的語音編碼標準。
語音編碼的應用
幾乎語音編碼領域的所有研究都是受應用驅動的,由於數位化語音的傳輸和存儲,在可靠性、抗干擾、易保密等方面都遠遠勝過模擬語音,從1950年代以來,在通訊系統中數位語音所占的百分比不斷增加。目前,在整合服務數位網路(Integrated Services Digital Network,ISDN)、衛星通訊、行動通訊、微波接力通訊等系統無一例外採用的都是數位化語音傳輸和存儲。近幾年,被稱為“最後一個數位化電子行業”的無線對講機領域也开始研究應用數位化語音編碼方案了。
行動通訊系統和網際網路( internet )是語音編碼技術的兩個重要應用領域。行動通訊的發展日新月異,除第一代行動通信系統採用模擬式語音傳輸外,從第二代移動通信系統開始,全部採用數位語音編碼方式。目前廣泛使用的“全球通”等第二代數位蜂窩移動通信系統採用了 13 kb/s 的 RPE - LTP ( Regular Pulse Excitation - Long Term Prediction )語音編碼技術。北美第二代數位移動電話(CDMA) 採用的是 Qualcomm (高通)公司的 QCELP( Qualcomm Code Excited Linear Prediction) 語音編碼預測。 QCELP 語音編碼預測不僅可以工作在 4/4.8/8/9.6 kb/s 等固定速率上,還可以變速率地工作在 0.8~9.6 kb/s 之間。在第三代行動通訊系統中,變速率語音編碼技術得到了廣泛應用。 TD- SCDMA 標準採用了 AMR ( Adaptive Multi-rate )語音編碼技術,WCDMA標準主要採用了 AMR 語音編碼技術,cdma2000 主要採用了 QCELP 或 EVRC ( Enhanced Variable Rate Codec ) 語音編碼技術。近些年,由於成本低廉,網路電話得到深入研究,目前世界多個標準組織和工業實體提出了很多語音編碼方案。其中包括國際電信聯盟的 G.711 (速率為64 kb/s ) , G.723.1 (速率為 5.3 kb/s 或 6.3 kb/s ) , G.729A (速率為 8 kb/s)編碼方案。 GIPS (Global IP Sound )公司、 Skype 公司等業界企業也有自己的編碼方案,如 iLBC、SILK 等編碼演算法等。考慮到語音數據封包包在網路環境中傳輸的特殊性,以及不同通訊網路的結構性等因素,嵌入式多速率語音編碼算法也在近幾年成為一個重要的研究領域。隨著網路頻寬的不斷增加,終端處理能力的不斷增強,用戶對話品質要求的提高,寬頻、超寬頻、全頻寬語音編碼技術得到了廣泛的研究,很多傳統的窄頻語音編碼技術得到探入研究並擴充到寬頻編碼版本上。
除了行動通訊系統和網際網路外,語音壓縮編碼技術還廣泛應用於保密通訊、衛星通信以及水下通信等領域。在這些應用領域中,傳輸頻寬通常較窄,超低速率語音壓縮編碼演算法的研究成為一個焦點。
語音編碼的分類
針對不同的應用場合、不同的語音來源以及對語音編碼目的的不同,可作如下的分類:編碼、編碼速率、編碼語音頻寬以及編碼訊號環境。
按編碼分類
按編碼方法分類,語音編碼可以分為波形編碼、參數編碼以及混合編碼。
- 波形編碼:語音信號的波形編碼圖使重建語音信號的波形維持原語音信號的波形形狀。該編碼演算法通常將語音信號作為一般的波形信號來處理,其有適應能力強、話音質量好的優點,但需要的編碼速率高。脈衝編碼調變(PCM)、自適應增量調制( ADM )、Adaptive( ADPCM )、自適應預測編碼( APC )、自適應子帶編碼( ASBC )、自適應變換編碼( ATC ) 等都屬於該類編碼器。它們分別在 16~64 kb/s 的編碼速率上給出高的編碼質量,當速率進一步降低時,其性能下降較快。
- 參數編碼:語音信號的參數編碼通過對語音信號特徵參數的提取及編碼,力求使重建語音訊號具有盡可能高的清晰度,即保持原語音的語義,而重建訊號的波形可能同原始語音訊號有較大的差別。此類編碼器的優點是編碼速率低,可以達到 2.4 kb/s 甚至更低,主要問題是合成語音品質較差,自然度較低,連熟人都不一定能聽出講話的人是誰。另外,該類編碼器對環境訊雜比較敏感,需要在安靜的壞境才能給出較高的清晰度,對通道誤碼也比較敏感。通道聲碼器、共振鋒聲碼器以及目前廣泛使用的線性預測聲碼器都是典型的參數編碼。
- 混合編碼:混合編碼採用參數編碼和波形編碼的混合編碼形式。該類演算法的共同特魚點是:先進行線性預測分析,去掉語音信號的短時相關性,然後利用合成分析法及感覺加權均方誤差最小原則分析出合適的替代冗餘訊號的最佳激勵源,最後對LP參數和激勵訊號源進行編碼和傳送。由於混合編碼方案的激勵模型和誤差計算與時域波行相連繫,使合成語音具有較強的追蹤輸入語音變化的性能,從而能夠改善合成語音的質量以及抗雜訊的能力。
按編碼速率分類
按語音編碼速率分類是根據語音訊號壓縮編碼後進行存儲或傳輸所需要的數據速率進行分類的一種方法。例如,按照編碼後的數據速率,可以將窄頻語音編碼分為5類:
- 高速率語音編碼:編碼速率為32kb/s以上
- 中高速率語音編碼:編碼速率為16~32kb/s
- 中速率語音編碼:編碼速率為4.8~16 kb/s
- 低速率語音編碼:編碼速率為1.2~4.8 kb/s
- 超低速率或極低速率語音編碼,其編碼速率低於1.2 kb/s
目前,語音編碼的國際標準主要集中在中速率以上,低速率以及超低速率語音編碼演算法的研究仍然是一個熱門領域。
按編碼語音頻寬分類
通常將人耳可以聽到的頻率在 20 Hz~20 kHz 的聲波稱為音頻訊號,標準的話路頻寬語音信號是300~3400 Hz,若加上少量保護頻帶,一般意義上說的標準話路頻帶寬度應該是4 KHz,根據取樣定理,頻寬為 4 KHz 的語音訊號的取樣頻率應為 8 kHz,量化精度一般在 16 位左右。通常所說的窄頻語音編碼指的就是這種頻帶範圍內的語音訊號編碼。
隨著網路傳輸頻寬的不斷增加,語音編碼的另一研究領域也開始引起廣泛重視,這就是寬頻語音編碼。寬頻語音編碼的頻率範圍通常在 50~7000 Hz,加上保護頻寬,通常為 8 kHz,取樣頻率一般為 16 kHz。國際電信聯盟公布的自適應多速率頻寬( AMR-WB )語音編碼器的杯標準為 G.722.2 協議,其頻率頻寬就在 50~7000 Hz,取樣頻率為16 kHz,屬於頻寬語音編碼的範疇。
在多媒體領域中,主要處理音頻訊號,包括音樂、語音、風聲、雨聲、鳥嗚聲、機器聲等。音頻編碼主要是針對頻率範圍較寬的音頻訊號進行的編碼,主要應用於數位廣播和數位電視廣播、消費電子產品等。典型的編碼有 MPEG-1 / MPEG-2 的 layer 1、2、3 和 MPEG-4 AAC 的音頻編碼等。
按編碼語音頻寬分類
語音訊號具有短時平穩性,通常假定語音訊號在 5~30 ms 之間的時段內,某些物理特徵參數是可以視為不變的,所以語音訊號的參數編碼及混合編碼通常以語音幀為單位進行。按照被編碼的語音訊號所在環境可以將編碼演算法分為時域編碼和頻域編碼。
- 時域編碼:時域編碼是指對語音的時域訊號進行編碼,如 PCM 編碼等。
- 頻域編碼:頻域編碼是指對語音的頻域訊號進行編碼,次頻帶編碼(SBC)就是一種頻域編碼方法。
語音編碼的硬體與系統
絕大多數語音編碼系統需要時時工作,對於系統的硬體環境提出了較高的要求。隨著語音編碼演算法的日益複雜,許多演算法的運算量達到幾十個 Million Instructions Per Second ( MIPS )。但相應的,近 20 年來,隨著微電子行業的迅速發展,數位訊號處理器(DSP) 技術也產生了巨大的突破,這就為語音編碼演算法的實用化鋪平了道路。在DSP領域最成功的企業是美國的德州儀器公司( Texas Instruments , Tl 公司 ),自從 1982年推出 TMS320 系列的第-款定點 DSP TMS3210 以來,其 DSP 已經發展了若干系列,處理能力最高可達 GHz。除 TI 公司外,美國 AD 公司、Motorola、NEC 等公司的 DSP 也各有特點。具體選擇哪一種硬體平台來實現語音編碼,要根據應用的實際需求綜合考慮,靈活決定。
根據 DSP 所能處理的數據格式,可以將其分為整數DSP和浮點數DSP。
- 整數DSP:整數DSP速度較快且價格便宜,但程式撰寫困難,精度較低。
- 浮點數DSP:浮點數DSP精度高,但其價格通常較貴。
在為某種語音編碼演算法選擇合適的 DSP 時,需要綜合考慮運算量、存儲量以及性價比等眾多因素。在語音編碼領域,Tl的TMS32OC54X 及 TMS320C55X 系列DSP得到了廣泛應用,這兩款DSP均為整數DSP 。
語音編碼的發展趨勢
經過近幾十年的發展,語音編碼領域湧現了很多的成果。目前在語音編碼方面有幾個熱門的領域:低速率語音編碼、頻帶語音編碼、變速率語音編碼以及嵌入式語音編碼。
ITU 已制定的語音編碼標準主要集中在中速率以上。如何在低速率甚至超低速率上獲得較高的語音品質,仍然是語音編碼領域的焦點。在低速率語音編碼領域,目前研究較多的模個型包括混合激勵線性預測模型、正弦激勵線性預測模型、正弦變換編碼、多頻激勵編碼以及波形插值編碼等。
除了致力於制定更低速率的語音編碼標準外,ITU正在討已制定的語音編碼標準近進行全頻寬的拓展,使其能夠適應語音的應用,例如 AMR 從窄頻帶 AMR-NB 到寬頻 AMR-WB 再到超寬頻 AMR-WB+, G.729 全頻帶擴展到 G.729.1等。 ISO/MPEG從標準化組織目前正在制定下一代音頻編/解碼標準 USAC (Unified Speech and Audio Coding),即語音/樂音聯合編解碼器。USAC可以對任意比例混合的語音/音樂訊號進行編/解碼,同時,無論是語音成分還是音樂成分,其編碼性能至少不亞於當前最好的專業語音編碼器或樂音編碼器的編碼性能。USAC 標準具有廣泛的應用前景,可以廣泛地應用於全球數字廣播,第三、四代行動通訊等領域。
隨著行動通訊的發展,尤其是第三行動通訊的發展,對於語音壓縮編碼演算法提出了更高的要求,不但要求編碼速率較低以增加系統容量,而且要求合成語音音值較高以確保通話品質。用傳統的壓縮編碼方式,很難同時滿足這兩個要求,在這種情形下,提出了變速率語音壓縮編碼的方法。在行動通訊系統中採用變速率語音壓縮編碼,可以根據需要動態地調整編碼速率,在合成語音質量和系統容量中取得靈活的折衷,最大限度地發揮系統的效能。1990年代,隨看 CDMA 行動通訊系統的快速發展,各種通訊組織相繼推出了不同的變速率語音編碼技術標準,主要包括 QCELP、EVRC、 AMR 和 SMV 4種演算法標準。
隨著網路技術的不斷發展,以網絡為載體的語音訊號傳輸得到了廣泛研究。在現實的網路條件下,由於網路擁塞、過延時和緩衝器溢出等原因,決定了網路傳輸中必然經常出現封包丟失等問題,這對語音訊號的實時傳輸具有很大影響,傳統的編碼器因為本身的特點,包丟失合導致合成語音品質嚴重下降。嵌入式語音編碼演算法從本質上來說也是一種變速率語音編碼演算法,其碼流的分布為嵌入式結構,核心碼流能夠保證基本的合成語音質量,外圍層的碼流不斷提高合成語音的品質,收到的比特流越多,合成語音的品質就越好,嵌入式語音編碼的這種結構特別適用網際網路上的語音傳輸,因此得到了各國學者的重視與研究。2006年,ITU制定了新的頻寬嵌入式語音編/解碼方案 G.729.1,並制定了新一代寬頻嵌入式(EV-VBR)語音編碼提案,具有5層嵌入式編碼結構,最終由 VOICEAGE 和 Nokia提交的編碼器成為基線編碼器,經這與其他競爭者的技術融合後,在2008年成為新一代嵌入式語音編碼標準 G.718。由於其沒有兼容G.729的要求,相應速度上具有比 G.729.1 更高的語音通訊品質。
參考資料
- 李曄, 崔慧娟, 唐昆 等編著,數字語音編碼技術 (Digital Speech Coding Technologies)