多媒体数据之所以能够压缩,是因为视频、
图像、声音这些媒体具有很大的压缩力。以常用的
位图格式的
图像存储方式为例,在这种形式的
图像数据中,像素与像素之间无论在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大;在允许一定限度失真的前提下,能对图像数据进行很大程度的压缩。
在多媒体计算系统中,信息从单一媒体转到多种媒体;若要表示,传输和处理大量
数字化了的声音/图片/影像视频信息等,数据量是非常大的。例如,一幅具有中等分辨率(640*480像素)真彩色图像(24位/像素),它的数据量约为每帧7.37Mb。若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184Mb,而且要求系统的
数据传输速率必须达到184Mb/s,这在是无法达到的。对于声音也是如此。若用16位/样值的PCM编码,采样速率选为44.1kHz,则双声道立体声声音每秒将有176KB的数据量。由此可见音频、视频的数据量之大。如果不进行处理,计算机系统几乎无法对它进行存取和交换。因此,在
多媒体计算机系统中,为了达到令人满意的
图像、视频画面质量和听觉效果,必须解决视频、图像、
音频信号数据的大容量存储和实时传输问题。解决的方法,除了提高计算机本身的性能及通信信道的
带宽外,更重要的是对多媒体进行有效的压缩。
数据的压缩实际上是一个编码过程,即把原始的数据进行编码压缩。数据的解压缩是数据压缩的逆过程,即把压缩的编码还原为原始数据。因此数据压缩方法也称为编码方法。数据压缩技术日臻恼,适应各种应用场合的编码方法不断产生。针对多媒体数据冗余类型的不同,相应地有不同的压缩方法。
有失真压缩法会压缩了熵,会减少信息量,而损失的信息是不能再恢复的,因此这种压缩法是不可逆的。无失真压缩法去掉或减少数据中的冗余,但这些冗余值是可以重新插入到数据中的,因此冗余压缩是可逆的过程。
无失真压缩是不会产生失真。从信息主义角度讲,无失真编码是泛指那种不考虑被压缩信息性质和压缩技术。它是基于平均信息量的技术,并把所有的数据当作比特序列,而不是根据压缩信息的类型来优化压缩。也就是说,平均信息量编码忽略被压缩信息主义内容。在多媒体技术中一般用于文本、数据的压缩,它能保证百分之百地恢复
原始数据。但这种方法压缩比较低,如LZW编码、
行程编码、霍夫曼(Huffman)编码的压缩比一般在2:1至5:1之间。
根据编码原理进行分类,大致有编码、
变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码,其他编码方法基本上都是有失真的编码。
预测编码是针对空间冗余的压缩方法,其基本思想是利用已被编码的点的数据值,预测邻近的一个像素点的数据值。预测根据某个模型进行。如果模型选取得足够好的话,则只需存储和传输起始像素和模型参数就可代表全部数据了。按照模型的不同,
预测编码又可分为线性预测、
帧内预测和
帧间预测。
变换编码也是针对空间冗余和
时间冗余的压缩方法。其基本思想是将
图像的光强矩阵(时域信号)变换到系统空间(频域)上,然后对系统进行编码压缩。在空间上具有强相关性的信号,反映在频域上是某些特定区域内的能量常常被集中在一起,或者是系数矩阵的发布具有某些规律。可以利用这些规律,分配频域上的量化比特数,从而达到压缩的目的。由于时域映射到频域总是通过某种变换进行的,因此称
变换编码。因为正交变换的变换矩阵是可逆的,且逆矩阵与转换置矩阵相等,解码运算方便且保证有解,所以
变换编码总是采用正交变换。
统计编码属于无失真编码。它是根据信息出现概率的分布而进行的压缩编码。编码时某种比特或字节模式的出现概率大,用较短的码字表示;出现概率小,用较长的码字表示。这样,可以保证总的平均码长最短。最常用的统计编码方法是
哈夫曼编码方法。
分析-合成编码实质上都是通过对
原始数据的分析,将其分解成一系列更适合于表示“基元”或从中提取若干具有更为本质意义的参数,编码仅对这些基本单元或特征参数进行。译码时则借助于一定的规则或模型,按一定的算法将这些基元或参数,“综合”成原数据的一个逼近。这种编码方法可能得到极高的
数据压缩比。
混合编码综合两种以上的编码方法,这些编码方法必须针对不同的
冗余进行压缩,使总的压缩性能得到加强。