数字视频就是先用摄像机之类的视频捕捉设备,将外界影像的颜色和亮度信息转变为
电信号,再记录到
储存介质(如
录像带)。
简介
数字视频就是以数字形式记录的视频,和
模拟视频相对的。数字视频有不同的产生方式,存储方式和播出方式。比如通过数字摄像机直接产生数字视频信号,存储在数字带,
P2卡,
蓝光盘或者磁盘上,从而得到不同格式的数字视频。然后通过PC,特定的播放器等播放出来。
为了存储视觉信息,
模拟视频信号的山峰和山谷必须通过模拟/数字(
A/D)
转换器来转变为数字的“0”或“1”。这个转变过程就是我们所说的视频捕捉(或采集过程)。如果要在电视机上观看数字视频,则需要一个从数字到模拟的转换器将
二进制信息解码成模拟信号,才能进行播放。
模拟视频的数字化包括不少技术问题,如电视信号具有不同的制式而且采用复合的
YUV信号方式,而计算机工作在
RGB空间;电视机是
隔行扫描,计算机显示器大多
逐行扫描;电视图像的分辨率与显示器的分辨率也不尽相同等等。因此,模拟视频的数字化主要包括色彩空间的转换、
光栅扫描的转换以及分辨率的统一。
模拟视频一般采用
分量数字化方式,先把
复合视频信号中的亮度和色度分离,得到YUV或
YIQ分量,然后用三个模/数转换器对三个分量分别进行数字化,最后再转换成RGB空间。
发展
谈到数字视频的发展历史,不能不回顾
计算机的发展历程,它实际上是与计算机所能处理的信息类型密切相关的,自上个世纪40年代计算机诞生以来,计算机大约经历了以下几个
发展阶段:
数值计算阶段。这是计算机问世后的“幼年”时期。在这个时期计算机只能处理
数值数据,主要用于解决科学与
工程技术中的数学问题。实际上,世界上第一台电子计算机
ENIAC就是为
美国国防部解决弹道计算问题和编制射击表而研制生产的。
数据处理阶段。50年代发明了
字符发生器,使计算机不但能处理数值,也能表示和处理字母及其它各种符号,从而使计算机的
应用领域从单纯的数值计算进入了更加广泛的数据处理。这是由世界上第一个批量生产的商用计算机UNIAC—1首开先河的。
多媒体阶段。随着
电子器件的进展,尤其是各种图形、图像设备和语音设备的问世,计算机逐渐进入多媒体时代,
信息载体扩展到文、图、声等多种类型,使计算机的应用领域进一步扩大。
由于视觉,即图形、图像,最能直观明了、生动形象地传达有关对象的信息,因而在
多媒体计算机中占有重要的地位。
在多媒体阶段,计算机与视频就产生了联姻。数字视频的发展主要是指在
个人计算机上的发展,可以大致分为初级、主流和高级几个历史阶段。
第—阶段是初级阶段,其主要特点就是在
台式计算机上增加简单的视频功能,利用电脑来处理活动画面,这给人展示了一番美好的前景,但是由于设备还未能普及,都是面向制作
视频制作领域的专业人员。在普通PC用户还无法奢望在自己的电脑上实现视频功能。
第二个阶段为主流阶段,在这个阶段数字视频在计算机中得到广泛应用,成为主流。初期数字视频的发展没有人们期望的那么快,原因很简单,就是对数字视频的处理很费力,这是因为数字视频的数据量非常之大,1分钟的满屏的
真彩色数字视频需要1.5GB的
存储空间,而在早期—般台式机配备的
硬盘容量大约是几百兆,显然无法胜任如此大的数据量。
虽然在当时处理数字视频很困难,但它所带来的诱惑促使人们采用折衷的方法。先是用计算机捕获单帧视频画面,可以捕获一帧视频图像并以一定的
文件格式存储起来,可以利用
图像处理软件进行处理,将它放进准备出版的资料中;后来,在计算机上观看活动的视频成为可能。虽然画面时断时续,但毕竟是动了起来,带给人们无限的惊喜。
而最有意义的突破是计算机有了捕获活动影像的能力,将视频捕获到计算机中,随时可以从硬盘上播放
视频文件。能够捕获视频得益于
数据压缩方法,压缩方法有两种:纯软件压缩和硬件辅助压缩纯软件压缩方便易行,只用一个小窗口显示视频,有很多这方面的软件。硬件压缩花费高,但速度快。在这一过程中,虽然能够捕获到视频,但是缺乏一个统一的标准,不同的计算机捕获的视频文件不能交换。虽然有过一个所谓的“标准”,但是它没有得到足够的流行,因此没有变成真正的标准,它就是
数字视频交互(
DVI)。DVI在捕获视频时使用硬件辅助压缩,但在播放时却只使用软件,因此在播放时不需要专门的设备。但是DVI没有形成市场,因此没有被广泛的了解和使用。因此就难以流行。这就需要计算机与视频再做一次结合,建立一个标准,使得每台计算机都能播放令人心动的视频文件。这次结合成功的关键是各种压缩解压缩
Codec技术的成熟。Codec来自于两个单词Compression(压缩)和Decompression(解压),它是一种软件或者固件(固化于用于视频文件的压缩和解压的程序芯片)。压缩使得将
视频数据存储到硬盘上成为可能。如果帧尺寸较小帧切换速度较慢,再使用压缩和解压,存储1分钟的视频数据只需20MB的空间而不是1.5GB,所需存储空间的比例是20:1500,即1:75。当然在显示窗口看到的只是分辨率为160×120邮票般大小的画面,
帧速率也只有15帧/s,色彩也只有256色,但画面毕竟活动起来了。
Quicktime和Video for Windows通过建立视频文件标准
MOV和
AVI使数字视频的应用前景更为广阔,使它不再是一种专用的工具,而成为每个人电脑中的必备成分。而正是数字视频发展的这一步,为电影和电视提供了一个前所未有的工具,为
影视艺术带来了影响空前的变革。
第三阶段是高级阶段,在这一阶段,普通
个人计算机进入了成熟的多媒体计算机时代。各种
计算机外设产品日益齐备,
数字影像设备争奇斗艳,视音频处理硬件与软件技术高度发达,这些都为数字视频的流行起到了推波助澜的作用。
采样
根据
电视信号的特征,亮度信号的带宽是色度
信号带宽的两倍。因此其数字化时可采用幅色采样法,即对信号的
色差分量的
采样率低于对亮度分量的采样率。用Y:U:V来表示
YUV三分量的采样比例,则数字视频的采样格式分别有4:2:0,4:1:1、4:2:2和4:4:4多种。电视图像既是空间的函数,也是时间的函数,而且又是隔行扫描式,所以其
采样方式比
扫描仪扫描图像的方式要复杂得多。分量采样时采到的是隔行
样本点,要把隔行样本组合成逐行样本,然后进行样本点的量化,YUV到RGB
色彩空间的转换等等,最后才能得到数字视频数据。
标准
为了在PAL、NTSC和 SECAM
电视制式之间确定共同的数字化参数,国家无线电
咨询委员会(
CCIR)制定了
广播级质量的数字电视编码标准,称为CCIR 601标准。在该标准中,对
采样频率、采样结构、
色彩空间转换等都作了严格的规定,主要有:
1、采样频率为f s=13.5MHz
3、根据f s的
采样率,在不同的采样格式下计算出数字视频的数据量:
SMPTE
通常用
时间码来识别和记录视频数据流中的每一帧,从一段视频的起始帧到终止帧,其间的每一帧都有一个唯一的时间码地址。根据动画和电视工程师协会SMPTE(Society of Motion Picture and Television Engineers)使用的时间码标准,其格式是:小时:分钟:秒:帧,或 hours:minutes:seconds:frames。一段长度为00:02:31:15的视频片段的
播放时间为2分钟31秒15帧,如果以每秒30帧的速率播放,则播放时间为2分钟31.5秒。
根据电影、录像和电视工业中使用的
帧率的不同,各有其对应的
SMPTE标准。由于技术的原因NTSC制式实际使用的帧率是29.97fps而不是30fps,因此在时间码与实际播放时间之间有0.1%的误差。为了解决这个误差问题,设计出丢帧(drop-frame)格式,也即在播放时每分钟要丢2帧(实际上是有两帧不显示而不是从文件中删除),这样可以保证时间码与实际播放时间的一致。与丢帧格式对应的是不丢帧(nondrop-frame)格式,它忽略
时间码与实际播放帧之间的误差。
基本概念
视频压缩的目标是在尽可能保证视觉效果的前提下减少视频
数据率。视频
压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处,但是运动的视频还有其自身的特性,因此在压缩时还应考虑其
运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念:
有损无损
在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。
无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。
有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损
压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
帧内帧间
帧内(Intraframe)压缩也称为空间压缩(Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的
冗余信息,这实际上与静态
图像压缩类似。帧内一般采用有损压缩算法,由于
帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的
相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高
压缩量,减小压缩比。
帧间压缩也称为时间压缩(Temporal compression),它通过比较
时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的
时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
对称性
对称性(
symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,
对称算法适合于
实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在
电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
压缩说明
如果使用数字视频,需要考虑的一个重要因素是
文件大小,因为数字视频文件往往会很大,这将占用大量硬盘空间。解决这些问题的方法是压缩—让文件变小。
使用
文本文件,大小问题就显得不那么重要了,因为这样的文件充满了“空格”,可以大幅度压缩—一个文本文件至少可以压缩 90%,
压缩率是相当高的(压缩率是指已压缩数据与未压缩数据之比值)。其他类型的文件,如 MPEG 视频或
JPEG 照片几乎无法压缩,因为它们是用非常紧密的
压缩格式制成的。
压缩原因
数字视频之所以需要压缩,是因为它原来的形式占用的空间大得惊人。视频经过压缩后,存储时会更方便。数字视频压缩以后并不影响作品的最终视觉效果,因为它只影响人的视觉不能感受到的那部分视频。例如,有数十亿种颜色,但是我们只能辨别大约 1024 种。因为我们觉察不到一种颜色与其邻近颜色的细微差别,所以也就没必要将每一种颜色都保留下来。还有一个冗余图像的问题—如果在一个 60 秒的视频作品中每帧图像中都有位于同一位置的同一把椅子,有必要在每帧图像中都保存这把椅子的数据吗?
压缩视频的过程实质上就是去掉我们感觉不到的那些东西的数据。标准的
数字摄像机的
压缩率为 5 比 1,有的格式可使视频的压缩率达到 100 比 1。但过分压缩也不是件好事。因为压缩得越多,丢失的数据就越多。如果丢弃的数据太多,产生的影响就显而易见了。过分压缩的视频会导致无法辨认。
压缩视频的时候,请始终尝试几种压缩设置。目的是尽可能将
数据压缩到最小,当数据丢失到从画面中能够明显看到时,再将
压缩率稍微向回调一点儿。这样就可以在文件大小和画面质量之间达到最佳平衡。不要忘记,每个视频作品都各不相同—有些视频经过高度压缩后看上去仍不错,有些却不是,所以您需要通过试验才能得到最好的效果。
位速说明
位速是指在一个
数据流中每秒钟能通过的
信息量。您可能看到过
音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千比特数”,因此数值越大表示数据越多:128–Kbps MP3 音频
文件包含的数据量是 64–Kbps WMA 文件的两倍,并占用两倍的空间。(不过在这种情况下,这两种文件听起来没什么两样。原因是什么呢?有些文件格式比其他文件能够更有效地利用数据,64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。)需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解码的处理量就越大,文件需要占用的空间也就越多。
为
项目选择适当的
位速取决于播放目标:如果您想把制作的
VCD 放在
DVD 播放器上播放,那么视频必须是 1150 Kbps,音频必须是 224 Kbps。典型的 206
MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。
压缩策略
可以用多种不同的方法和策略压缩数字媒体文件,使之达到便于管理的大小。下面是几种最常用的方法:
心理声学 一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如,如果我扯着嗓子喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我
踏脚的声音。通过去掉踏脚声,就会减少
信息量,减小文件的大小,但听起来却没有区别。
2.心理视觉视频压缩
心理视觉视频压缩与和其对等的音频压缩相似。心理视觉模型去掉的不是我们听不到的
音频数据,而是去掉眼睛不需要的视频数据。假设有一个在 60 秒的时间内显示位于同一位置的一把椅子的未经压缩的视频片段,在每帧图像中,都将重复这把椅子的同一数据。如果使用了心理视觉压缩,就会把一帧图像中椅子的数据存储下来,以在接下来的帧中使用。这种压缩类型—叫做“统计
数据冗余”—是
WMV、MPEG 和其他
视频格式用于压缩视频并同时保持高质量的一种数学窍门。
无损 一词的意思是“不丢失数据”。当一个文件以无损格式压缩时,全部数据仍然存在,这与压缩文档很相似—
文档文件虽然变小了,但解压缩之后每一个字都还存在。您可以反复保存无损视频而不会丢失任何数据—这种压缩只是将
数据压缩到更小的空间。无损压缩节省的空间较少,因为在不丢失信息的前提下,只能将数据压缩到这一程度。
有损压缩丢弃一些数据,以便获得较低的
位速。
心理声学压缩和心理视觉压缩是有损
压缩技术,压缩结果是文件变小,但包含的源数据也更少。每次以有损文件格式保存文件时,都会损失很多数据—即使用同一种格式保存也是如此。一条好的经验是,只在项目的最后阶段才使用有损压缩。
格式
MPEG-1
用于传输1.5Mbps
数据传输率的数字
存储媒体运动图像及其伴音的编码,经过
MPEG-1标准压缩后,视频数据
压缩率为1/100-1/2 00,音频压缩率为1/6.5。MPEG-1提供每秒30帧352*240分辨率的图像,当使用合适的压缩技术时,具有接近家用视频制式(
VHS)
录像带的质量。MPEG-1允许超过70分钟的高质量的视频和音频存储在一张
CD-ROM盘上。VCD采用的就是MPEG-1的标准,该标准是一个面向家庭电视质量级的视频、
音频压缩标准。
MPEG-2
主要针对
高清晰度电视(HDTV)的需要,
传输速率为10Mbps,与
MPEG-1兼容,适用于1.5-60Mbps甚至更高的编码范围。
MPEG-2有每秒30帧704*480的分辨率,是MPEG-1播放速度的四倍。它适用于高要求的广播和娱乐
应用程序,如:DSS
卫星广播和DVD,MPEG-2是家用视频制式(
VHS)录像带分辨率的两倍。
DAC
即数/模转装换器,一种将
数字信号转换成
模拟信号的装置。
DAC的位数越高,信号失真就越小。图像也更清晰稳定。
AVI
AVI是将语音和影像同步组合在一起的文件格式。它对视频文件采用了一种
有损压缩方式,但压缩比较高,因此尽管面面质量不是太好,但其
应用范围仍然非常广泛。AVI支持256色和RLE压缩。AVI信息主要应用在
多媒体光盘上,用来保存电视、电影等各种影像信息。
RGB
对一种颜色进行编码的方法统称为“
颜色空间”或“
色域”。“颜色空间”都可定义成一个固定的数字或变量。
RGB(红、绿、蓝)只是众多颜色空间的一种。采用这种
编码方法,每种颜色都可用三个变量来表示-红色绿色以及蓝色的强度。记录及显示彩色图像时,R GB是最常见的一种方案。但是,它缺乏与早期黑白
显示系统的良好
兼容性。因此,件多
电子电器厂商普遍采用的做法是,将RGB转换成
YUV 颜色空间,以维持兼容,再根据需要换回RGB格式,以便在
电脑显示器上显示
彩色图形。
YUV
YUV(亦称
YCrCb)是被欧洲电视系统所采用的一种颜色编码方法(属于
PAL)。YUV主要用于优化彩色
视频信号的传输,使其
向后兼容老式
黑白电视。与R GB视频信号传输相比,它最大的优点在于只需占用极少的带宽(
RGB要求三个独立的视频信号同时传输)。其中“Y”表示明亮度(Lumina nce或Luma),也就是
灰阶值;而“U”和“V”表示的则是
色度(Chrominance或Chroma),作用是描述影像色彩及
饱和度,用于指定像素的颜色。通过R GB
输入信号来创建的,方法是将RGB信号的特定部分叠加到一起。“色度”则定义了颜色的两个方面-色调与饱和度,分别用Cr和CB来表示。其中,C r反映了GB输入信号红色部分与RGB信号亮度值之间的差异。而CB反映的是RGB输入信号蓝色部分与RGB信号亮度值之同的差异。
视频和S-V
NTSC和PAL彩色视频信号是这样构成的--首先有一个基本的黑白视频信号,然后在每个水平
同步脉冲之后,加入一个颜色脉冲和一个亮度信号。因为彩色信号是由多种数据“叠加”起来的,故称之为“
复合视频”。S -Video则是一种信号质量更高的
视频接口,它取消了信号叠加的方法,可有效避免一些无谓的
质量损失。它的 功能是将
RGB三原色和亮度进行分离处理。
NTSC、PAL和SECAM
基带视频是一种简单的模拟信号,由视频
模拟数据和视频同步数据构成,用于接收端正确地
显示图像电视标准委员会,National Television Standards Committee)、PAL(逐行倒相,Phase Alternate Line)以及
SECAM(顺序传送与存储
彩色电视系统,法国采用的一种
电视制式,SEquential Couleur Avec Memoire)。在PC领域,由于使用的制式不同,存在不兼容的情况。就拿分辨率来说,有的制式每帧有625线(50Hz),有的则每帧只有525线(60 Hz)。后者是
北美和日本采用的标准,统称为NTSC。通常,一个视频信号是由一个视频源生成的,比如摄像机、
VCR或者
电视调谐器等。为传输图像,视频源首先要生成-个
垂直同步信号(V SYNC)。这个信号会重设接收端设备(PC显示器),保征新图像从屏幕的顶部开始显示。发出VSYNC信号之后,视频源接着扫描图像的第一行。完成后,视频源又生成一个水平
同步信号,重设接收端,以便从屏幕左侧开始显示下一行。并针对图像的每一行,都要发出一条
扫描线,以及一个水平
同步脉冲信号。
另外,NTSC标准还规定视频源每秒钟需要发送30幅完整的图像(帧)。假如不作其它处理,
闪烁现象会非常严重。为解决这个问题,每帧又被均分为两部分,每部分2 62.5行。一部分全是奇数行,另一部分则全是偶数行。显示的时候,先扫描奇数行,再扫描偶数行,就可以有效地改善
图像显示的稳定性,减少闪烁。
SECAM制式,三种制式尚无法统一。中国采用的是PAL-D制式。
Ultrascale
Ultra6cale是Rockwell(洛克威尔)采用的一种扫描转换技术。可对垂直和
水平方向的显示进行任意缩 放。在电视这样的
隔行扫描设备上显示
逐行视频时,整个过程本身就己非常麻烦。而采用 UltraScale技木,甚至还能像在
电脑显示器上那祥,迸行类似的纵横方向自由伸缩。