第七单元 音频和语音

7.1 音质与数据率

   

        当我们设计数字音频系统(数字 音频 系统)时,有两个问题需要弄清楚:(1)听起来的效果要多好?(2)多大的数据率可以接受?答案可分为下列三种情况:

       一、高保真音乐:音质最为重要,几乎任何数据率均可接受。

       二、电话通信:语音听起来要很自然,而且低数据率可以降低系统成本。

       三、压缩语音:降低数据率非常重要,可以接受在声音中存在些许的不自然。压缩语音通常用于军事通信、蜂窝电话以及语言邮件和多媒体中的数字存储语音。(表略)

       表1展示了上面三种情况下音质与数据率间的关系。高保真音乐系统拥有足够高的采样率(44.1 kHz)和精度(16 bits),能采集到人耳能听到的所有声音。如此完美音质的代价是很高的数据率(44.1 kHz ´16 bits=706 kbps),这里没用任何数据压缩技术。

       音乐需要20kHz的带宽,而自然语音仅需要大约3.2kHz的带宽。尽管带宽减少为音乐带宽的16%(即20kHz中的3.2kHz),语音信号仍然包含80%的原始信息(10倍频程中的8个)。电话通信系统的典型采样率约为8kHz,这个采样率对于自然语音还可以,但会大大降低音乐的音质。你很可能对音质差别已有体会:调频收音机大约需要20kHz带宽,而调幅收音机的带宽则限制在3.2kHz。在调幅情况下,语音听起来正常,但音乐则显得微弱、难以令人满意。

       单纯的语音系统可将样本精度由16比特降为12比特,音质上几乎没明显变化。如果采用非均匀量化,样本精度可以降为8比特。这个过程就是常用的“压扩”技术。8 kHz的采样率,8bits的模数转换精度,得到64 kbps的数据率。对于自然语音而言,这么高的数据率有些浪费。注意:语音的数据率不到高保真音乐数据率的10%。

      将采样、量化理论直接应用于音频信号就可以得到64 kbps这个数据率。通过去除语音信号的内在冗余来压缩数据流,这是降低数据率技术的基础。线性预测编码(LPC)是压缩音频信号最有效的方法之一。该方法存在几种变体和子类。根据对所需音质的要求,线性预测编码可将数据率降低至2~6 kbps。

 

 

 

 

 



 
电子工业出版社