H.264,同时也是
MPEG-4第十部分,是由ITU-T
视频编码专家组(VCEG)和ISO/IEC动态图像专家组(
MPEG)联合组成的联合视频组(
JVT,Joint Video Team)提出的高度压缩数字
视频编解码器标准。这个标准通常被称之为H.264/
AVC(或者AVC/H.264或者H.264/MPEG-4 AVC或MPEG-4/H.264 AVC)而明确的说明它两方面的开发者。
背景介绍
H.264是
国际标准化组织(ISO)和
国际电信联盟(ITU)共同提出的继
MPEG4之后的新一代
数字视频压缩格式。H.264是ITU-T以H.26x系列为名称命名的
视频编解码技术标准之一。H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动
图像编码专家组)的联合视频组(
JVT:joint video team)开发的一个数字
视频编码标准。该标准最早来自于ITU-T的称之为H.26L的项目的开发。H.26L这个名称虽然不太常见,但是一直被使用着。H.264是ITU-T以H.26x系列为名称命名的标准之一,
AVC是ISO/IEC MPEG一方的称呼。
国际上制定视频编解码技术的组织有两个,一个是“
国际电联(ITU-T)”,它制定的标准有
H.261、H.263、H.263+等,另一个是“国际标准化组织(ISO)”它制定的标准有
MPEG-1、
MPEG-2、
MPEG-4等。而H.264则是由两个组织联合组建的联合视频组(JVT)共同制定的新数字
视频编码标准,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高级
视频编码(Advanced Video Coding,AVC)的第10 部分。因此,不论是MPEG-4 AVC、
MPEG-4 Part 10,还是ISO/IEC 14496-10,都是指H.264。
1998年1月份标准开始草案征集,1999年9月,完成第一个草案,2001年5月制定了其
测试模式TML-8,2002年6月的 JVT第5次会议通过了H.264的FCD板。2003年3月正式发布。在2005年又开发出了H.264的更高级
应用标准MVC 和 SVC 版本。
国际电联ITU和MPEG组织在发布了H.264标准之后,很快就发布公告,为下一代视频编解码标准
H.265征集
技术方案。为H.265设定的技术
性能指标是:压缩效率比H.264提高1倍、且不明显提高编码和解码的计算量。据MPEG组织2009年西安会议的回顾,尚无一个技术提案达到上述指标。
H.264是在MPEG-4技术的基础之上建立起来的,其编解码流程主要包括5个部分:帧间和
帧内预测(Estimation)、变换(Transform)和反变换、量化(
Quantization)和反量化、环路
滤波(Loop Filter)、
熵编码(Entropy Coding)。
H.264标准的主要目标是:与其它现有的视频编码标准相比,在相同的带宽下提供更加优秀的图象质量。通过该标准,在同等图象质量下的压缩效率比以前的标准(MPEG2)提高了2倍左右。
H.264可以提供11个等级、7个类别的子协议格式(算法),其中等级定义是对外部环境进行限定,例如带宽需求、内存需求、网络性能等等。等级越高,带宽要求就越高,
视频质量也越高。类别定义则是针对特定应用,定义
编码器所使用的特性子集,并规范不同应用环境中的编码器复杂程度。
优势
1.低码率(Low Bit Rate):和MPEG2和
MPEG4 ASP等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG2的1/8,MPEG4的1/3。
2.高质量的图像:H.264能提供连续、流畅的高质量图像(DVD质量)。
3.
容错能力强:H.264提供了解决在不稳定
网络环境下容易发生的丢包等错误的必要工具。
4.网络适应性强:H.264提供了
网络抽象层(Network Abstraction Layer),使得H.264的文件能容易地在不同网络上传输(例如互联网,CDMA,GPRS,
WCDMA,
CDMA2000等)。
H.264最大的优势是具有很高的
数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。举个例子,原始文件的大小如果为88GB,采用MPEG-2
压缩标准压缩后变成3.5GB,压缩比为25∶1,而采用H.264压缩标准压缩后变为879MB,从88GB到879MB,H.264的压缩比达到惊人的102∶1。低码率(Low Bit Rate)对H.264的高的压缩比起到了重要的作用,和MPEG-2和MPEG-4 ASP等压缩技术相比,H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H.264在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过H.264压缩的视频数据,在
网络传输过程中所需要的带宽更少,也更加经济。
特点
H264标准的主要特点如下:
1.更高的编码效率:同H.263等标准的特率效率相比,能够平均节省大于50%的
码率。
2.高质量的视频画面:H.264能够在低码率情况下提供高质量的视频图像,在较低带宽上提供高质量的
图像传输是H.264的应用亮点。
3.提高网络
适应能力:H.264可以工作在实时通信应用(如视频会议)低延时模式下,也可以工作在没有延时的视频存储或
视频流服务器中。
4.采用
混合编码结构:同H.263相同,H.264也使用采用DCT
变换编码加DPCM的
差分编码的混合编码结构,还增加了如多模式
运动估计、帧内预测、多帧预测、基于内容的
变长编码、4x4二维整数变换等新的
编码方式,提高了编码效率。
5.H.264的编码选项较少:在H.263中编码时往往需要设置相当多选项,增加了编码的难度,而H.264做到了力求简洁的“回归基本”,降低了编码时
复杂度。
6.H.264可以应用在不同场合:H.264可以根据不同的环境使用不同的传输和播放速率,并且提供了丰富的
错误处理工具,可以很好的控制或消除丢包和
误码。
7.错误恢复功能:H.264提供了解决
网络传输包丢失的问题的工具,适用于在高
误码率传输的
无线网络中传输
视频数据。
8.较高的复杂度:264性能的改进是以增加复杂性为代价而获得的。据估计,H.264编码的计算复杂度大约相当于H.263的3倍,解码复杂度大约相当于H.263的2倍。
技术
H.264和以前的标准一样,也是DPCM加
变换编码的混合
编码模式。但它采用“回归基本”的简洁设计,不用众多的选项,获得比
H.263++好得多的压缩性能;加强了对各种信道的
适应能力,采用“网络友好”的结构和语法,有利于对
误码和丢包的处理;应用目标范围较宽,以满足不同速率、不同
解析度以及不同传输(存储)场合的需求。
技术上,它集中了以往标准的优点,并吸收了标准制定中积累的经验。与H.263 v2(H.263+)或
MPEG-4简单类(Simple Profile)相比,H.264在使用与上述
编码方法类似的最佳
编码器时,在大多数
码率下最多可节省50%的码率。H.264在所有码率下都能持续提供较高的
视频质量。H.264能工作在低延时模式以适应实时通信的应用(如视频会议),同时又能很好地工作在没有延时限制的应用,如视频存储和以服务器为基础的
视频流式应用。H.264提供包
传输网中处理包丢失所需的工具,以及在易误码的
无线网中处理比特误码的工具。
在系统层面上,H.264提出了一个新的概念,在视频编码层(Video Coding Layer,
VCL)和网络提取层(Network Abstraction Layer,NAL)之间进行概念性分割,前者是视频内容的核心压缩内容之表述,后者是通过特定类型网络进行递送的表述,这样的结构便于信息的封装和对信息进行更好的优先级控制。
编码
H.264/AVC 主要支持 4:2:0 格式的连续编解码或者隔行视频编解码,4:2:2 和 4:4:4 可作为参考信息
帧数。H.264/AVC采用了经典的
运动补偿混合编码框架,共有 3 种编码图像:I 帧、
P帧和B 帧。与之前编码标准不同,H.264 新定义了 SP 帧和SI 帧,这两种新定义的帧可以在不同的
图像质量、不同的传送速率之间切换,当信息丢失时,可以采用这种方法快速恢复。
帧内编码用来缩减图像的
空间冗余。为了提高H.264帧内编码的效率,在给定帧中充分利用相邻
宏块的空间
相关性,相邻的宏块通常含有相似的属性。因此,在对一给定宏块编码时,首先可以根据周围的宏块预测(典型的是根据左上角宏块、左边宏块和上面宏块,因为此宏块已经被
编码处理),然后对
预测值与实际值的差值进行编码,这样,相对于直接对该帧编码而言,可以大大减小码率。
H.264提供9种模式进行4×4像素宏块预测,包括1种直流预测和8种
方向预测。相邻块的A到I共9个像素均已经被编码,可以被用以预测,如果我们选择模式4,那么,a、b、c、d4个像素被预测为与E相等的值,e、f、g、h4个像素被预测为与F相等的值,对于图像中含有很少
空间信息的平坦区,H.264也支持16×16的帧内编码。
H.264选择帧内
预测模式时,可对预测值和实际值之间的差值进行变换、量化和
熵编码。与此同时,编码后的
码流要经过反量化和反变换,重构出
预测残差图像,与预测值相加得出重构帧,得出的结果经过
环路滤波器平滑后送到帧存储器当中。
帧间预测编码利用连续帧中的
时间冗余来进行
运动估计和补偿。H.264的运动补偿支持以往的
视频编码标准中的大部分关键特性,而且灵活地添加了更多的功能,除了支持P帧、
B帧外,H.264还支持一种新的流间
传送帧——SP帧。码流中包含SP帧后,能在有类似内容但有不同码率的码流之间快速切换,同时支持
随机接入和快速回放模式。H.264的运动估计有以下4个特性。
(1)不同大小和形状的宏块分割
对每一个16×16像素宏块的运动补偿可以采用不同的大小和形状,H.264支持7种模式,如图4所示。小块模式的运动补偿为运动详细信息的处理提高了性能,减少了方块效应,提高了图像的质量。图4 宏块分割方法
(2)高精度的亚像素运动补偿
在H.263中采用的是半像素精度的运动估计,而在H.264中可以采用1/4或者1/8像素精度的运动估值。在要求相同精度的情况下,H.264使用1/4或者1/8像素精度的
运动估计后的
残差要比H.263采用半像素精度运动估计后的残差来得小。这样在相同精度下,H.264在
帧间编码中所需的码率更小。
(3)多帧预测
H.264提供可选的多帧预测功能,在帧间编码时,可选5个不同的
参考帧,提供了更好的纠错性能,这样更可以改善视频图像质量。这一特性主要应用于以下场合:周期性的运动、
平移运动、在两个不同的场景之间来回变换摄像机的镜头。
H.264定义了自适应去除
块效应的滤波器,这可以处理预测环路中的水平和垂直块边缘,大大减少了方块效应。
H.264采用帧间编码时,首先在参考帧中间进行运动估计,其次运动估计完以后的残差图像经过整数变换、量化和熵编码后与运动矢量一起送到信道传输。
3.整数变换
在变换方面,H.264使用了基于4×4像素块的类似于
DCT的变换,但使用的是以整数为基础的空间变换,不存在反变换因为取舍而存在误差的问题,
变换矩阵如图5所示。与
浮点运算相比,整数DCT变换会引起一些额外的误差,但因为DCT变换后的量化也存在
量化误差,与之相比,整数DCT变换引起的量化误差影响并不大。此外,整数DCT变换还具有减少运算量和
复杂度,有利于向定点DSP移植的优点。
4.量化
H.264中可选52种不同的
量化步长,这与H.263中有31个量化
步长很相似,但是在H.264中,步长是以12.5%的复合率递进的,而不是一个固定常数。
在H.264中,变换系数的读出方式也有两种:之字形(Zigzag)扫描和双扫描,如图6所示。大多数情况下使用简单的之字形扫描;双扫描仅用于使用较小
量化级的块内,有助于提高
编码效率。图6 变换系数的读出方式
视频编码处理的最后一步就是熵编码,在H.264中采用了两种不同的熵编码方法:通用可变长编码(UVLC)和基于文本的自适应二进制算术编码(CABAC)。
在H.263等标准中,根据要编码的
数据类型如变换系数、运动矢量等,采用不同的
VLC码表。H.264中的UVLC码表提供了一个简单的方法,不管符号表述什么类型的数据,都使用统一变字长
编码表。其优点是简单;缺点是单一的码表是从概率
统计分布模型得出的,没有考虑编码符号间的相关性,在中高码率时效果不是很好。
因此,H.264中还提供了可选的CABAC方法。
算术编码使编码和解码两边都能使用所有句法元素(变换系数、运动矢量)的
概率模型。为了提高算术编码的效率,通过内容建模的过程,使基本概率模型能适应随
视频帧而改变的
统计特性。内容建模提供了编码符号的
条件概率估计,利用合适的内容模型,存在于符号间的相关性可以通过选择要编码符号邻近的已编码符号的相应概率模型来去除,不同的句法元素通常保持不同的模型
H.264的目标应用涵盖了大部分的视频服务,如
有线电视远程监控、
交互媒体、数字电视、视频会议、
视频点播、
流媒体服务等。
H.264为解决不同应用中的
网络传输的差异。定义了两层:视频编码层(VCL:Video Coding Layer)负责高效的视频内容表示,网络提取层(NAL:Network AbstractionLayer)负责以网络所要求的恰当的方式对数据进行打包和传送(如图所示: 标准的
整体框架)。
基本层次(Baseline Profile):该层次使用了H.264的除了B-Slices,CABAC以及交织编码模式外所有的特性。该层次主要使用于低
时延的实时应用场合。
主要层次(Main Profile):包含Baseline profile的所有特性,并包括了B-slices,CABAC以及交织编码模式。它主要针对对时延要求不高,当
压缩率和
质量要求较高的场合。
扩展层次(Profile X):支持所有Baseline profile的特性,但不支持CABAC以及基于宏块的自适应帧场编码。该层次主要针对的是各种网络
视频流传输方面的应用。
1.分层设计 H.264的算法在概念上可以分为两层:视频编码层负责高效的视频内容表示,网络提取层(NAL:Network Abstraction Layer)负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口,打包和相应的信令属于NAL的一部分。这样,高编码效率和网络友好性的任务分别由VCL和NAL来完成。
VCL层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样,H.264没有把
前处理和
后处理等功能包括在草案中,这样可以增加标准的灵活性。
NAL负责使用下层网络的分段格式来封装数据,包括组帧、
逻辑信道的信令、
定时信息的利用或序列结束信号等。例如,NAL支持视频在
电路交换信道上的传输格式,支持视频在Internet上利用RTP/
UDP/
IP传输的格式。NAL包括自己的头部信息、段结构信息和实际载荷信息,即上层的VCL数据。(如果采用
数据分割技术,数据可能由几个部分组成)。
在H.264的运动预测中,一个宏块(MB)可以按图2被分为不同的子块,形成7种不同模式的块尺寸。这种多模式的灵活和细致的划分,更切合图像中实际运动物体的形状,大大提高了运动估计的精确程度。在这种方式下,在每个宏块中可以包含有1、2、4、8或16个运动矢量。
在H.264中,允许编码器使用多于一帧的先前帧用于运动估计,这就是所谓的多帧参考技术。例如2帧或3帧刚刚编码好的
参考帧,编码器将选择对每个目标宏块能给出更好的预测帧,并为每一宏块指示是哪一帧被用于预测。
3.4×4块的整数变换
H.264与先前的标准相似,对残差采用基于块的
变换编码,但变换是整数操作而不是实数运算,其过程和DCT基本相似。这种方法的优点在于:在编码器中和
解码器中允许精度相同的变换和反变换,便于使用简单的
定点运算色度数据的
4个4×4块的DC系数(每个小块一个,共4个)进行2×2块的变换。
H.264为了提高
码率控制的能力,量化步长的变化的
幅度控制在12.5%左右,而不是以不变的增幅变化。变换系数幅度的归一化被放在反量化过程中处理以减少计算的复杂性。为了强调彩色的
逼真性,对色度系数采用了较小量化步长。
4.统一的VLC
H.264中熵编码有两种方法,一种是对所有的待编码的符号采用统一的VLC(UVLC :Universal VLC),另一种是采用内容自适应的二进制
算术编码(CABAC:Context-Adaptive Binary Arithmetic Coding)。CABAC是可选项,其编码性能比UVLC稍好,但计算复杂度也高。UVLC使用一个长度无限的码字集,设计结构非常有规则,用相同的码表可以对不同的对象进行编码。这种方法很容易产生一个码字,而解码器也很容易地识别码字的前缀,UVLC在发生比特错误时能快速获得重同步。
在先前的H.26x系列和
MPEG-x系列标准中,都是采用的
帧间预测的方式。在H.264中,当编码Intra图像时可用帧内预测。对于每个4×4块(除了边缘块特别处置以外),每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的
权值可为0)来预测,即此像素所在块的左上角的17个像素。显然,这种帧内预测不是在时间上,而是在
空间域上进行的
预测编码算法,可以除去相邻块之间的空间
冗余度,取得更为有效的压缩。
按照所选取的预测参考的点不同,亮度共有9类不同的模式,但色度的帧内预测只有1类模式。
6.面向IP和无线环境
H.264 草案中包含了用于差错消除的工具,便于压缩视频在误码、丢包多发环境中传输,如
移动信道或IP信道中传输的
健壮性。
为了抵御传输差错,H.264
视频流中的
时间同步可以通过采用帧内图像刷新来完成,空间同步由条结构编码(slice structured coding)来支持。同时为了便于误码以后的再同步,在一幅图像的
视频数据中还提供了一定的重同步点。另外,帧内宏块刷新和多参考宏块允许编码器在决定宏块模式的时候不仅可以考虑编码效率,还可以考虑传输信道的特性。
除了利用量化步长的改变来适应信道码率外,在H.264中,还常利用
数据分割的方法来应对信道码率的变化。从总体上说,
数据分割的概念就是在编码器中生成具有不同优先级的视频数据以支持网络中的
服务质量QoS。例如采用基于语法的数据分割(syntax-based data partitioning)方法,将每帧数据的按其重要性分为几部分,这样允许在
缓冲区溢出时丢弃不太重要的信息。还可以采用类似的时间数据分割(temporal data partitioning)方法,通过在P帧和B帧中使用多个
参考帧来完成。
在
无线通信的应用中可以通过改变每一帧的
量化精度或空间/
时间分辨率来支持
无线信道的大
比特率变化。可是,在
多播的情况下,要求编码器对变化的各种比特率进行响应是不可能的。因此,不同于MPEG-4中采用的精细分级编码
FGS(Fine Granular Scalability)的方法(效率比较低),H.264采用流切换的SP帧来代替分级编码。
由于蓝光格式的统一,使得市面上绝大多数的
高清视频均是采用H.264的格式编码,它又分为四个最主要步骤,分别是流处理,
逆变换,
动态补偿,去方块滤波,这四步也是资源消耗的主要四个部分。
H.264解码的四个步骤中的第一步“CAVLC/CABAC解码”是最为消耗运算资源,这方面远高于其他三步(简单的说,CAVLC/CABAC是H.264编码规范中两种不同的算法,都是为了提高
压缩比,其中CABAC比CAVLC
压缩率更高,但解码时自然也要求更高)。
如果所有四个步骤全采用处理器纯
软件解码运算,当碰上
HDDVD版本的高
码率H.264视频,处理器的负载会非常巨大,即使能流畅播放
高清视频,也会因为处理器压力过重而影响其他同时开启的应用程序的执行效率。
如果让处理器解码“CAVLC/CABAC解码”和“反向转换(Inverse Transformation)”两部分,由
显示核心承担“运动补偿”和“解码去块”功能,则可以在一定程度上降低处理器的压力。不过对于使用
单核处理器或低端
双核处理器的用户来说,这依然无法很好的应付这类视频;其次,碰上
编码率更高的视频,依然会给处理器造成很大的处理难度,导致视频播放的
不确定性,可能消费者会遇到某些视频可以流畅播放,但是有些视频却丢帧的情况。
冗余处理
H.264与以前的
国际标准如H.263和MPEG-4相比,为达到高效的压缩,充分利用了各种冗余,
统计冗余和视觉生理冗余。
1.统计冗余:频谱冗余(指色彩分量之间的相关性),空间冗余,还有
时间冗余。这是
视频压缩区别于静止图像的根本点,视频压缩主要利用时间冗余来实现大的压缩比。
2.视觉生理冗余
视觉生理冗余是由于人类的
视觉系统(HVS)特性造成的,比如人眼对色彩分量的
高频分量没有对亮度分量的高频分量敏感,对图像高频(即细节)处的噪声不敏感等。
针对这些冗余,视频
压缩算法采用了不同的方法加以利用,但主要的考虑是集中在空间冗余和时间冗余上。H.264也采用混合(hybrid)结构,即对空间冗余和时间冗余分别进行处理。对空间冗余,标准通过变换及量化达到消除的目的,这样编码的帧叫I帧;而时间冗余则是通过
帧间预测,即
运动估计和补偿来去除,这样编码的帧叫P帧或B帧。与以前标准不同的是,H.264在编码I帧时,采用了帧内预测,然后对
预测误差进行编码。这样就充分利用了空间相关性,提高了编码效率。H.264帧内预测以16x16的宏块为
基本单位。首先,编码器将与当前宏块同一帧的邻近像素作为参考,产生对当前宏块的预测值,然后对
预测残差进行变换与量化,再对变换与量化后的结果做熵编码。熵编码的结果就可以形成
码流了。由于在解码器端能够得到的
参考数据都是经过反变换与反量化后的重建图像,因此为了使编解码一致,编码器端用于预测的参考数据就和解码器端一样,也是经过反变换与反量化后的重建图像。
市场
按编解码功能划分,H.264市场可划分为解码市场、编码市场。
解码市场
H.264解码产品,主要有:支持H.264标准的解码集成电路,含专用解码芯片和
系统芯片SoC;支持H.264标准的解码软件,用于各类电子产品。
最先大规模采用H.264解码芯片的,是卫星
高清机顶盒。由于
H.264技术能够显著提高压缩效率,一个
卫星转发器发送的高清电视节目,可以从过去的1个频道增加到3个频道(配合
DVB-S2等新型
传输技术),故美国及欧洲的卫星运营商从2004年起相继采用H.264解码芯片。至今,支持H.264标准,已经成为各类高清机顶盒
SoC芯片的
标准配置,且被
高清电视机的SoC芯片广泛采用。
随着互联网视频服务的快速崛起,各类智能电子设备都陆续支持视频网络下载及播放。H.264标准一直是
网络视频的主要
压缩技术之一,且在又有逐步取代
Flash视频格式的
发展趋势。其主要支持者,是
微软的IE浏览器和
苹果公司的系列产品,前者保证了H.264在桌面设备市场的优势,后者保证了H.264在便携设备市场的优势。
然而,由于谷歌公司决定在其新一代浏览器
Chrome中支持新的
视频编解码技术WebM、而不支持H.264,使得H.264在网络视频市场的前景受到很大的挑战。
编码市场
由于H.264出色的
编码效率,使其很快就被以
视频监控设备为主体的编码设备市场所接受。
H.264高效的编码效率,对相同视频节目占用较小的
网络带宽和
存储空间。H.264编码器的主要指标有:支持的分辨率和
帧率,编码延时,编码
码流兼容性,码流
控制精度等指标。大部分
编码器分辨率支持到1920X1080,帧率为25帧(
PAL)或者30帧(N制),编码延时在200毫秒以上。
错误恢复
错误恢复的工具随着
视频压缩编码技术的提高在不断改进。旧的标准(
H.261、H263、
MPEG-2的第二部分)中,使用片和宏块组的划分、帧内编码宏 块、帧内编码片和帧内编码图像来防止错误的扩散。之后改进的标准(H.263+、MPEG-4)中,使用多帧参考和
数据分割技术来恢复错误。
H.264标准在以前的基础上提出了三种
关键技术:(1)参数集合,(2) 灵活的宏块次序(FMO),(3)冗余片(RS)来进行错误的恢复。
帧内编码
H.264中帧内编码的技术和以前标准一样,值得注意的是:
(1)H.264中的
帧内预测编码宏块的参考宏块可以是帧间编码宏块,帧内预测宏块并不像H.263中的帧内编码一样,而采用预测的帧内编码比非预测的帧 内编码有更好的编码效率,但减少了帧内编码的重同步性能,可以通过设置限制帧内预测标记来恢复这一性能。
(2)只包含帧内宏块的片有两种,一种是帧内片(Islice),一种是立即刷新片(IDRslice),立即刷新片必存在于立即刷新图像 (IDRpicture)中。与短期参考图像相比,立即刷新图像有更强壮的重同步性能。
在无线IP
网络环境下,为了提高帧内图像的重同步性能,要采用
率失真优化编码和设置限制帧内预测标记。
图像分割
H.264支持一幅图像划分成片,片中宏块的数目是任意的。在非FMO模式下,片中的宏块次序是同
光栅扫描顺序,FMO模式下比较特殊。片的划分可以适配不同的MTU尺寸,也可以用来交织分组打包。
参考图像选择
参考
图像数据选择,不论是基于宏块、基于片,还是基于帧,都是错误恢复的有效工具。对于有反馈的系统,编码器获得传输中丢失图像区域的信息后,参考图像可 以选择解码已经正确接收的图像对应的原图像区域作参考。在没有反馈的系统中,将会使用冗余的编码来增加错误恢复性能。
数据划分
通常情况下,一个宏块的数据是存放在一起而组成片的,
数据划分使得一个片中的宏块数据重新组合,把宏块语义相关的数据组成一个划分,由划分来组装片。
在H.264中有三种不同的数据划分。
头信息划分:包含片中宏块的类型,量化参数和运动矢量,是片中最重要的信息。
帧内信息划分:包含帧内CBPs和帧内系数,帧内信息可以阻止错误的蔓延。
帧间信息划分:包含帧间CBPs和帧间系数,通常比前两个划分要大得多。
帧内信息划分结合头信息解出帧内宏块,帧间信息划分结合头信息解出帧间宏块。帧间信息划分的重要性最低,
对重同步没有贡献。当使用数据划分时,片中的数据根据其类型被保存到不同的缓存,同时片的大小也要调整,使得片中最大的划分小于MTU尺寸。
解码端若获得所有的划分,就可以完整重构片;解码端若发现帧内信息或帧间信息划分丢失,可用的头信息仍然有很好的错误恢复性能。这是因为宏块类型和宏块的运动矢量含有宏块的基本特征。
使用参数集
序列的参数集(SPS)包括了一个图像序列的所有信息,图像的参数集(PPS)包括了一个图像所有片的信息。多个不同的序列和
图像参数集经排序存放在解码 器。编码器参考序列参数集设置图像参数集,依据每一个已编码片的片头的存储地址选择合适的图像参数集来使用。对序列的参数和图像的参数进行重点保护才能很 好地增强H.264错误恢复性能。
在差错信道中使用参数集的关键是保证参数集及时、可靠地到达解码端。例如,在实时信道中,编码器用可靠
控制协议及早将他们以
带外传输的方式发送,使控制协 议能够在引用新参数的第一个片到达之前把它们发给解码器;另外一个办法就是使用应用层保护,重发多个
备份文件,确保至少有一个备份数据到达解码端;第三个 办法就是在编解码器的硬件中固化参数集设置。
宏块次序(FMO)
灵活的宏块次序是H.264的一大特色,通过设置宏块次序映射表(MBAmap)来任意地指配宏块到不同的片组,FMO模式打乱了原宏块顺序,降低了编码 效率,增加了时延,但增强了
抗误码性能。FMO模式划分图像的模式各种各样,重要的有棋盘模式、矩形模式等。当然FMO模式也可以使一帧中的宏块顺序分 割,使得分割后的片的大小小于
无线网络的MTU尺寸。经过FMO模式分割后的图像数据分开进行传输,以棋盘模式为例,当一个片组的数据丢失时可用另一个片 组的数据(包含丢失宏块的相邻宏块信息)进行错误掩盖。实验
数据显示,当
丢失率为(视频会议应用时)10%时,经错误掩盖后的图像仍然有很高的质 量。
冗余片方法
前边提到了当使用无反馈的系统时,就不能使用
参考帧选择的方法来进行错误恢复,应该在编码时增加冗余的片来增强抗误码性能。要注意的是这些冗余片的编码参 数与非冗余片的编码参数不同,也就是用一个模糊的冗余片附加在一个清晰的片之后。在解码时先解清晰的片,如果其可用就丢弃冗余片;否则使用冗余模糊片来重 构图像。
优点
1.低码率(Low Bit Rate):和MPEG2和MPEG4 ASP等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG2的1/8,MPEG4的1/3。
2.高质量的图象:H.264能提供连续、流畅的高质量图象(
DVD质量)。
3.容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。
4.网络适应性强:H.264提供了网络抽象层(Network Abstraction Layer),使得H.264的文件能容易地在不同网络上传输(例如互联网,CDMA,GPRS,WCDMA,CDMA2000等)。
H.264最大的优势是具有很高的
数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。举个例子,原始文件的大小如果为88GB,采用MPEG-2压缩标准压缩后变成3.5GB,压缩比为25∶1,而采用H.264压缩标准压缩后变为879MB,从88GB到879MB,H.264的压缩比达到惊人的102∶1。低码率(Low Bit Rate)对H.264的高的压缩比起到了重要的作用,和MPEG-2和MPEG-4 ASP等压缩技术相比,H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H.264在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过H.264压缩的视频数据,在
网络传输过程中所需要的带宽更少,也更加经济。
H.264/AVC/MPEG-4 第 10 部分包含一些新功能,使它比旧标准更多有效地压缩视频,为各种网络环境中的应用提供更大的灵活性。尤其是,一些这类关键功能包括:
这些技术,以及其他几个帮助 H.264 要执行明显优于任何事先的标准在各式各样的各式各样的应用程序环境的情况下。H.264 可以经常执行从根本上比 MPEG-2 视频 — — 通常获得相同质量的比特率的一半或更少,尤其是对高比特率和高分辨率的情况。
像其他的 ISO/IEC MPEG 视频标准,H.264/AVC 有一个参考软件实现,可免费下载。它的主要目的是给的 H.264/AVC 的功能,而不是有用的应用程序本身是示例。也正在一些参考硬件设计工作,在
运动图像专家组。上述完成 H.264/AVC 涵盖 H.264 的所有配置文件的功能。
编解码器的配置文件是一组的功能的确定,以满足特定集规格的预期应用该编解码器。这意味着许多人列出的功能不受支持的某些配置文件。下一节中讨论了各种配置文件的 H.264/AVC。
配置文件
该标准定义了 21 套的能力,被称为
配置文件,针对特定的
应用程序的类。
非可缩放
2D 视频应用程序的配置文件包括以下内容:
便携式摄像机、 编辑和专业的应用程序,标准包含四个附加帧内-仅配置文件,它们被定义为相应的其他配置文件的简单子集。这些是主要为专业人员 (例如摄像机和编辑系统) 的应用程序:
由于该的
可伸缩视频编码(SVC) 的扩展,标准包含五个额外可扩展的配置文件,它们被定义为 (由第二个单词中的可扩展的配置文件名称标识) 的基底图层的 H.264/AVC 配置文件组合和实现可伸缩扩展的工具:
由于该多视图
视频编码(MVC) 的扩展,标准包含了两个多视图的配置文件:
版本
加粗面临版本是版本,其中包括相对较重大技术改进。
编码和解码
请参见:列表的照相机与板载视频流编码
因为H.264 编码和解码要求大量的
计算能力在特定类型的
算术运算,在通用 Cpu 运行的软件实现高效率通常较少力量。不过,最新的四核通用 x 86 Cpu 有足够的计算能力来执行实时标清及高清编码。压缩效率取决于视频的算法实现,不在是否使用硬件或软件来实现。因此,硬件和软件基于的执行更是
电源效率、 灵活性和成本之间的差异。为提高电源效率和减少硬件形式因素,可能雇用专用硬件,为完整的编码或解码过程中,或在
CPU 控制的环境内加速援助。
基于
CPU 的解决办法是已知是灵活得多,尤其是编码必须
进行时同时多格式、 多比特率和各项决议 (多屏幕视频) 和可能用上的容器格式支持的
附加功能,先进综合的广告功能等。基于 CPU 的软件解决方案通常使得更容易在相同的 CPU 内的多个并发编码会话进行
负载平衡。
介绍了在 2011 年 1 月
CES (消费
电子展)
英特尔硬件H.264 编码器可以是
ASIC或
FPGA。FPGA 是一个一般的可编程芯片。要使用 FPGA 作为硬件编码器,H.264 编码器设计需要自定义应用程序的芯片。完整的高清 H.264 编码器可以在一个单一的低成本 FPGA 芯片上运行 2009 年 (高配置文件、 水平 4.1,1080p,30 帧/秒)。
ASIC 编码器与 H.264 编码器功能,可从许多不同的半导体公司,但在 ASIC 中使用的核心设计通常由芯片及媒体, On2 (原 Hantro,由
谷歌收购),想象力的技术,NGCodec 等几个公司的一个授权。一些公司已提供的 FPGA 和 ASIC 产品。
德州仪器生产一线的
ARM+ 执行 DSP H264 BP 的 DSP 内核编码 1080p 30 帧每秒。这允许 (其中,作为高度优化的 DSP 代码实现) 的
编解码器的灵活性时正在比通用 CPU 上的软件效率更高。