随机变分视频预测文献综述

 2022-11-22 16:50:28

理解对象的交互动力学并预测接下来会发生什么,是人类在日常生活中做出决定所依赖的关键能力之一[1]。可以准确预测诸如视觉之类的复杂感官形式的未来观察的模型,必须在内部表示现实世界对象和人的复杂动态,因此更有可能获得可用于各种视觉感知任务的表示,例如对象跟踪和动作识别[2][3][4]。此外,这样的模型在本质上是有用的,例如,允许自治代理或机器人决定如何与世界互动以实现期望的结果[5][6]

但是,鉴于数据的高维性和环境的复杂动态,对图像的未来分布进行建模是一项艰巨的任务。因此,通常会做出各种简化的假设。一个特别普遍的假设是环境是确定的,并且只有一个可能的未来[3][4][7][8]。由于主体在这些环境中更具确定性,因此基于主体行为的模型通常会做出这种假设[6][9]。但是,大多数现实世界的预测任务(包括动作条件设置)实际上并不是确定性的,确定性模型可能会丢失实际物理交互中存在的许多细微差别。考虑到视频预测的随机性,任何确定性模型都必须预测所有可能结果的统计量。例如,使用均方误差损失函数训练的确定性模型会独立生成每个像素的所有可能性的期望值,这在本质上是模糊的[10]

随机变分视频预测(Stochastic Variational Video Prediction,SV2P),它为每个隐随机变量样本预测了一个不同的可能未来,以及一种稳定的训练程序,用于训练基于神经网络的方法的实现。SV2P是第一个在现实环境中成功预测多个帧的隐变量模型,该模型还支持以行动为条件的预测,同时仍然能够预测歧义行动的随机结果。如实验所示,我们在多个真实世界的视频数据集以及精心设计的小型数据集上评估了SV2P,该数据集突显了随机性在视频预测中的重要性。在我们的定性和定量比较中,相对于标准模型,例如PSNR(Peak Signal to Noise Ratio)和SSIM(Structural SIMilarity),与不具有随机性的相同模型相比,SV2P均产生了显著改善的视频预测。观看预测的视频时,SV2P的随机性最明显。

在假设确定性环境的情况下,许多先前的工作已经解决了视频帧预测问题[3][4][7][11] [12][13]。在这项工作中,我们建立在Finn等人[9]提出的确定性视频预测模型的基础上,该模型通过预测从前一帧提取的动态蒙版对象的运动流来生成将来的帧。De Brabandere 等人[14]和liu等人[15]也提出了类似的基于变换的模型。先前的工作还考虑了确定性视频预测模型的替代目标,以减轻预测帧的模糊性并产生更清晰的预测[10][16]。尽管有对抗目标,Mathieu等人[10]发现即使在预测单个帧时,注入噪声也不会导致随机预测。Oh等人[6]和Chiappa[8]等人考虑到代理的动作,通过假设在视频游戏中确定性的结果来做出清晰的视频预测。但是,这种假设在现实世界中并不成立,因为现实世界中的环境几乎总是随机的。

已经提出了自回归模型来对原始像素的联合分布进行建模[17]。尽管这些模型可以预测未来的清晰图像,但它们的训练和推理时间非常长。Reed等人[17]提出了一种并行化多尺度算法,显著提高了训练和预测时间,但在GPU上生成1秒视频仍需要一分钟以上的时间。我们的比较表明,这些模型的预测是清晰的,但有噪音,并且我们的方法产生的预测要好得多,尤其是对于更长的视野。

随机预测的另一种方法是使用生成对抗网络(Generative Adversarial Networks,GAN)[18],该网络已用于视频生成和预测[19][20]。Vondrick 等人[21]和 Chen等人[22]应用对抗训练从单个图像预测视频。尽管GAN会生成清晰的图像,但它们往往会遭受模式崩溃的影响[9],尤其是在条件生成设置中[23]

还针对随机探测任务探索了变分自动编码器(Variational auto-encoder,VAEs)[24]。Walker等人[25]使用条件VAEs预测像素的密集轨迹。Xue等人[26]在类似VAE的体系结构中使用交叉卷积网络来预测单个随机帧;Shu等人[27]使用条件VAE和高斯混合先验来进行随机预测。这两项工作都仅在具有简单移动子画面和没有对象交互的合成数据集上进行了评估。由于可能发生的随机事件的多样性和多变性,真实图像极大地使视频预测复杂化。Fragkiadaki等人[28]比较了用于多模式运动预测和一帧视频预测的各种体系结构,包括可变推断和以前的直接采样。与这些现有的模型不同,我们的重点是设计一种多帧视频预测模型,以产生对未来的随机预测。多帧预测要比单帧预测困难得多,因为诸如碰撞之类的复杂事件需要多个帧才能完全解决,而单帧预测可以简单地忽略这种复杂性。

为了构建随机变分视频预测模型,我们首先建立一个概率图形模型来解释视频中的随机性。由于我们的目的是实现条件视频预测,那么预测就受限于c个上下文帧 (例如,若受限于一帧,那么),并且我们的目标是从采样,其中表示视频的第帧。

由于无法从上下文帧单独观察到的隐事件,视频预测是随机的。例如,当机器人的手臂将玩具推到桌子上时,该玩具的未知重量会影响它的移动方式。因此,我们将隐变量的向量引入到我们的模型中,根据先验进行分布,并建立模型。该模型仍然是随机的,但是使用更一般的表示(例如条件高斯)来解释图像中的噪声,而则说明了更复杂的随机现象。然后,我们可以将该模型分解为,学习然后训练这些因子的参数,我们假定它们在所有时间步长之间都是共享的。

在推论时,我们需要估计真实后验的值,由于其对的依赖关系,因此难以估计。我们通过使用推理网络近似后验来解决此问题,该推理网络输出条件高斯分布的参数。该网络使用重新参数化技巧进行训练,其根据是:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。