声音的产生
声音是由于物体振动而产生的。当物体振动时,会产生扰动空气分子,空气分子会相互碰撞,形成波纹。这些波纹传播到人耳,被人耳接收,从而产生了听觉。
声音的三要素
声音的三要素是音调、响度和音色。
- 音调:音调是声音最基本的特征之一,它表示声音的音高。音调高低可以用频率来表示。频率是表示声音在单位时间内振动次数的物理量,单位为赫兹(Hz)。人耳可以听到的声音的频率范围为 20Hz 到 20kHz。频率越高,音调越高;频率越低,音调越低。
- 响度:响度是声音的另一个基本特征,它表示声音的强弱,表示声音在单位时间内传递的能量的物理量。响度越大,声音越强;响度越小,声音越弱。
- 音色:音色表示声音的质感。音色是由声音的频谱成分决定的。不同的声音具有不同的频谱成分,因此具有不同的音色。
从模拟信号到音频文件
我们听到的声音都是模拟信号,如果使用计算机处理和保存声音我们需要把声音转换为音频文件,这个转换需要经过以下几个步骤:
- 采样(模拟信号 → 离散信号):模拟信号在时间上是连续的,为了便于计算机处理,将模拟信号在一定时间间隔内进行取样,得到一组离散的数值,即离散信号。采样频率是采样过程中的一个重要参数,它决定了音频文件的保真度。采样频率越高,音频文件的保真度越高,但文件的大小也会越大。根据奈奎斯特采样定理,采样频率必须大于等于信号的最高频率的两倍,才能完全还原信号。因此,对于人耳可以听到的声音(20Hz-20kHz),采样频率通常为 44.1kHz 或 48kHz。
- 量化(离散信号 → 数字信号):模拟信号是在声音的时间上离散化,量化则是将声音的幅度离散化。量化将采样得到的数值进行量化,即将其转换为有限个离散的值。量化精度是量化过程中的一个重要参数,它决定了音频文件的音质。量化精度通常用位数表示,例如 16 位量化,表示量化精度为 16 位。16 位量化可以表示 65536 个不同的值。
- 编码(数字信号 → 音频文件):将量化后的数值进行编码,以便存储和传输。编码方式有很多种,通常为 PCM 编码。PCM 编码是将量化后的数值直接存储,称为音频的裸数据格式,具有较好的保真度,但文件的大小也较大。
例如,计算一分钟的 CD 音质数据所需的存储空间,CD 的标准音频格式是:
- 采样率:44.1 kHz
- 位深度:16 位
- 声道数:2(立体声,即左右两个声道,可以视为记录几个声音信号)
基于这些参数,我们可以计算一分钟 CD 音质音频大约需要 10.09MB 的存储空间。具体计算方法如下:
-
首先,计算每秒钟的数据量:
每秒数据量(字节)=采样率 × 位深度 × 声道数/8 -
然后,将每秒的数据量乘以 60,得到每分钟的数据量:
每分钟数据量_MB = 每秒数据量 * 60 / 1024 / 1024
音频文件播放
音频文件播放的过程通常使用数模转换器(DAC)来完成。DAC 将数字信号转换为连续的音频信号,其工作原理如下:
- 首先,DAC 将数字信号进行解码,也就是将数字信号转换为模拟信号。
- 转换后的模拟音频信号可能很微弱,需要通过功放等设备进行放大。
- 最后,DAC 将放大后的模拟信号输出到扬声器或耳机,与扬声器或耳机的振膜振动产生声音。
音频压缩编码
音频压缩编码的主要目的是减少音频文件的大小,同时尽量保持原始音质。这通常通过去除人耳无法察觉的信息以及压缩那些对音质影响较小的信息来实现。音频压缩可以分为无损压缩和有损压缩两种类型。
无损压缩
无损音频压缩可以在不失去任何原始数据的情况下减少文件大小。这意味着无损压缩后的文件可以完全还原成与原始音频文件完全一样的数据。无损压缩主要依赖两种技术来减少文件大小:
-
预测编码:
- 这种方法基于预测接下来的音频样本的值。通过比较实际样本值和预测值之间的差异,只需记录这些较小的差异值,而不是记录每个样本的完整值。
- 预测可以基于前一个或几个样本进行,或使用更复杂的算法来提高预测的准确性。
-
熵编码:
- 熵编码是一种统计编码技术,它通过分析音频数据中的各种元素出现的频率来进行压缩。
- 最常见的熵编码方法之一是霍夫曼编码。在这种方法中,最常出现的元素(如某个特定的差异值)会被分配更短的编码,而不常出现的元素则分配更长的编码。
常用的的无损音频压缩格式包括 FLAC、APE、ALAC,可以将音频文件的大小压缩到原来的 50% 左右,而音质几乎不会下降。
有损压缩
有损音频压缩是一种通过牺牲部分音频信息来减少文件大小的技术。这种压缩通常非常高效,能够显著减少文件大小,而人耳通常无法察觉到这种质量的损失。有损压缩通过去除一些对人类听觉不太重要的音频信息来减小文件大小,常用的技术包括:
-
掩蔽效应:
-
频率掩蔽
- 同时掩蔽:在同一时间,一个强烈的声音可以掩盖掉与它频率相近的较弱声音。
- 临界带宽:人耳对于频率的敏感度是有限的,临界带宽内的声音被视为一个整体。如果一个频带内的声音足够响,它可以掩蔽该带宽内的其他声音。
-
时间掩蔽:时间掩蔽是指一个响亮的声音可以在时间上遮蔽掉其前后的较弱声音。
- 前向掩蔽:发生在响亮声音之前的短暂时刻。前向掩蔽的效果较弱,,可以在响亮声音出现前的几毫秒内遮蔽掉较弱的声音。
- 后向掩蔽:发生在响亮声音之后。这种掩蔽作用更强,可以持续一段时间(通常是响亮声音结束后的几十毫秒到几百毫秒)。
-
-
数据削减:
- 去除那些人耳无法听到或者不太可能注意到的声音,比如过高或过低的频率。
- 去除冗余信息,例如,在立体声音频中,如果两个声道非常相似,可以只存储一个声道并稍作修改来表示另一个声道。
-
采样、量化和编码:
- 降低音频信号的采样率、量化位数。
有损压缩格式能在可接受的音质损失范围内显著减少文件大小,使音频存储和传输变得更加高效,常用于存储日常使用的音频文件,常见如 MP3、AAC、OggVorbis 等。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于