H264是属于视频的编码层的标准格式,视频编码显然是为了压缩大小。
我们看下一个完全没压缩的视频数据大小。假设视频是高清(1280 * 720),每秒30帧,也就是每秒的数据
1280 * 720 *30 / 8(字节) /1024(KB)/1024(MB) = 3.11MB
那郑拆么90分钟的电影就要16.7GB,这个数据量显然在当前网络下是不现实的。
视频压缩的原理就是去除视频冗余部分,下面列举下
1,时间冗余
时间冗余是序列图像(电视图像、动画)和语音数据中所经常包含的冗余。
图像序列中的两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关性,这反映为时间冗余。同理,在语言中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全的在时间上独立的过程,因而存在时间冗余。
2,空间冗余
空间冗余是图像数据中经常存在的一种冗余。
在同一幅图像中,规则物体和规则背景(所谓规则是指表面颜色分布是有序的而不是杂乱无章的)的表面物理特性具有相关性,这些相关性的光成像结构在数字化图像中就表现为数据冗余。,
3,知识冗余
有许多图像的理解与某些基础知识有相当大的相关性,
例如:人脸的图像有固定的结构。比如,嘴的上方有鼻带隐子。鼻子的上方有眼睛,鼻子位于正脸图像的中线上等等。这类规律性的结构可由先验知识相背景知识得到,我们称此类冗余为知识冗余。
4,结构冗余
有些图像从大域上看存在着非常强的纹理结构,例如布纹图像和草席图像,我们说它们在结构上存在冗余。
5,视觉冗余
人类视觉系统对于图像场的任何变化,并不是都能感知的。例如,对于图像的编码和解码处理时,由于压缩或量比截断引入了噪声而使图像发生了一些变化,如果这些变化不能为视觉所感知,则仍认为图像足够好。事实上人类视觉系统一般的分辨能力约为26灰度等级,而一般图像量化采用28灰度等级,这类冗余我们称为视觉冗余。
通蠢丛厅常情况下,人类视觉系统对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降。
对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。
6,信息熵冗余
信息熵是指一组数据所携带的信息量。它一般定义为:H =
-∑pi×log2pi。其中N为码元个数,pi为码元yi发生的概率。由定义,为使单位数据量d接近于或等于H,应设d=∑pi×b(yi),其中b(yi)是分配给码元yi的比特数,理论上应取-log2pi。实际上在应用中很难估计出{Po,P1,…,PN—1}。因此一般取b(yo)=b(y1)=…=b(yN—1),例如,英文字母编码码元长为7比特,即b(yo)=b(y1)=…=b(yN—1)=7,这样所得的d必然大于H,由此带来的冗余称为信息墒冗余或编码冗余。
H264原始码流结构
VCL:包括核心压缩引擎和块,宏块和片的语法级别定义,设计目标是尽可能地独立于网络进行高效的编码。
NAL:负责将VCL产生的比特字符串适配到各种各样的网络和多元环境中,覆盖了所有片级以上的语法级别。