基于深度学习的视频编码重建图像质量增强方法文献综述

 2022-08-10 09:36:13

一、文献综述

(一)国内外研究现状

在视频编码中,为消除或减轻块效应,用环内滤波的方法对重建图像进行滤波以降低重建误差。这一方面提高了当前重建图像的客观质量,另一方面为后续编码帧的运动估计提供了更好的参考帧,有利于提升编码效率。

使用深度神经网络同样可以改善重建图像质量。目前的研究都以超分辨率为出发点展开。Dong等[14]提出了一种AR-CNN网络来抑制重建图像块效应并保留清晰的边缘,AR-CNN在SRCNN的基础上增加了一层特征增强层以提取真正有用的图像特征。与JPEG相比,该方法能够获得1dB以上的PSNR增益。受Wang等[15]工作的启发,Guo等[16]设计了双域CNN网络,分别从DCT域与像素域去除冗余,两个CNN分支最后经过聚集网络生成重建图像。与AR-CNN相比,该方法将PSNR进一步平均提高了约0.6dB。上述方法都针对图像编码展开,并不适用于视频编码,例如,当AR-CNN用于H.265/HEVC视频编码时,BD-rate反而增加了0.2%[18]。针对视频编码,Park等[17]设计了类似于SRCNN的IFCNN来替换H.265/HEVC的SAO模块。结果表明,对All Intra情况,BD-rate平均降低了4.8%;Low_delay_P与Random Access下,BD-rate降低了1.6%~2.8%。Dai等[18]设计了一个4层可变尺寸的卷积网络VRCNN替换H.265/HEVC的环内滤波,VRCNN使用两个不同尺寸的卷积核来提取图像的有用特征,在All Intra条件下能够节省4.6%的BD-rate,比节省3.8% BD-rate的VDSR更有优势。Li等[19]认为视频序列中图像的内容复杂程度不同,单个网络并不能适用于所有图像。因此,他们根据复杂度将输入的视频序列自适应地划分为图像组,根据复杂度与QP训练不同的VDSR网络模型,实验结果显示其BD-rate比H.265/HEVC降低了1.6%。上述方法都采用了类似的较简单的网络结构挖掘图像的空域相关性。

可见,针对使用深度神经网络解决亚像素插值与环内滤波问题的研究刚拉开帷幕。以图像超分辨率为出发点,初步实验结果表明了深度学习在该问题上行之有效。然而,首先,编码环内重建图像的优化问题与图像超分辨率问题有相似之处,图像超分辨率的网络拓扑结构与算法非常丰富,上述问题仅使用了其中较简单的几个模型;其次,两个问题也有不同,超分辨率的输入图像来源广泛,其结果更注重主观质量的最优;而编码重建图像的产生与作用机理与之不同,例如图像的块效应是由于编码预测、变换、量化带来的,优化后的图像还要作用于编码,提高编码效率。因为这些不同,解决方法也应各有侧重。最后,与静态图像不同,视频在时间维度又具备新的特性,这些尚未被充分挖掘。

(二)研究主要成果

对于H.265/HEVC编码框架中环内滤波的研究方面,目前最新的性能较优的模型如下图所示。

图 1 高性能网络结构代表

VRCNN[19]首次将可变大小的卷积核引入视频重建图像去噪领域,在网络只有四层的情况下仍然取得非常可观的性能。在其网络中,第一层和最后一层网络使用的是普通的固定卷积核尺寸的卷积层,用作图像特征的提取和重建;中间两层卷积层则分别使用了不同尺寸的卷积核的组合来清除图像中的噪声并且修复特征。这种技术有两个优势。第一,在同一层卷积层中使用两种尺寸的卷积核能够对同一系列的图像特征在不同的感受野下学习图像像素之间的相关性,从而提高网络结构的学习能力,提高模型的性能。第二,在每一层卷积层输出的特征数不变的前提下,可以降低卷积层中的每个卷积核的输出特征数,从而大幅度降低整个网络所需要的参数,降低运算复杂度,以达到加快网络运行速度的目的。VRCNN在运行时间仅为VDSR一半的情况下,仍能取得比VDSR更优的性能。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。