第七单元音频和语音

7.1 音质与数据率

        当我们设计数字音频系统（数字音频系统）时，有两个问题需要弄清楚：（1）听起来的效果要多好？（2）多大的数据率可以接受？答案可分为下列三种情况：

       一、高保真音乐：音质最为重要，几乎任何数据率均可接受。

       二、电话通信：语音听起来要很自然，而且低数据率可以降低系统成本。

       三、压缩语音：降低数据率非常重要，可以接受在声音中存在些许的不自然。压缩语音通常用于军事通信、蜂窝电话以及语言邮件和多媒体中的数字存储语音。（表略）

       表1展示了上面三种情况下音质与数据率间的关系。高保真音乐系统拥有足够高的采样率（44.1 kHz）和精度（16 bits），能采集到人耳能听到的所有声音。如此完美音质的代价是很高的数据率（44.1 kHz ´16 bits=706 kbps），这里没用任何数据压缩技术。

       音乐需要20kHz的带宽，而自然语音仅需要大约3.2kHz的带宽。尽管带宽减少为音乐带宽的16%（即20kHz中的3.2kHz），语音信号仍然包含80%的原始信息（10倍频程中的8个）。电话通信系统的典型采样率约为8kHz，这个采样率对于自然语音还可以，但会大大降低音乐的音质。你很可能对音质差别已有体会：调频收音机大约需要20kHz带宽，而调幅收音机的带宽则限制在3.2kHz。在调幅情况下，语音听起来正常，但音乐则显得微弱、难以令人满意。

       单纯的语音系统可将样本精度由16比特降为12比特，音质上几乎没明显变化。如果采用非均匀量化，样本精度可以降为8比特。这个过程就是常用的“压扩”技术。8 kHz的采样率，8bits的模数转换精度，得到64 kbps的数据率。对于自然语音而言，这么高的数据率有些浪费。注意：语音的数据率不到高保真音乐数据率的10%。

将采样、量化理论直接应用于音频信号就可以得到64 kbps这个数据率。通过去除语音信号的内在冗余来压缩数据流，这是降低数据率技术的基础。线性预测编码（LPC）是压缩音频信号最有效的方法之一。该方法存在几种变体和子类。根据对所需音质的要求，线性预测编码可将数据率降低至2~6 kbps。

电子工业出版社

第七单元 音频和语音

7.1 音质与数据率

第七单元音频和语音