随着时代的发展,科技的进步,互联网已经走入了千家万户,完全实现了平民化。伴随着互联网的发展,流媒体也发展了起来,包括视频、文字、音乐等多种形式。其中,文字的形式较为单一,而音乐的形式亦缺乏画面感,所以当前视频的发展尤为引起大家的关注。前些年,伴随着4G的出现,以及4G本身的网速快、资费低、覆盖性好等特性,以视频为主业务的公司发展迅猛,例如抖音与快手等短视频平台。短视频具有内容呈现多样化、轻量化、趣味化,传播场域氛围轻松等特点[1],所以被大多数人所接受。
因为视频的迅猛发展,所以无论是在本地还是在网络上都充斥着大量的视频资源。网络上传播的视频来自各种各样的平台,有微博、抖音短视频平台、微信朋友圈、qq空间等。这些视频信息包括记录生活的vlog,分享动态的朋友圈,带货直播的抖音片段。而本地视频则包括了商家或自家的监控视频资料。
面对如此多的视频信息,人们开始有了从视频中检索信息的需求,可能用于对曾经某个美好时刻的回顾,也可能用于从监控视频中检索某些重要的信息。于是出现了时域语言定位任务,以求对视频时刻进行检索,来获取所描述的活动发生的时间片段,包括起始时间和终止时间。时域语言定位需要模型能够建立语言模态与视觉模态的关系,对多模态特征进行建模,对自然语言和视频内容均有涉及。在我们正式开始该任务之前,让我们先对之前的研究进行一个总结。
首先,我们先来介绍一种句表示学习方法——Skip-thought Vectors[2]。在此方法之前,获得句向量的方式主要有两种,一种是基于词袋模型的句表示,比如通过TF-IDF[3]获得词的权重,然后对句子中的词对应的词向量加权求和得到句向量;另一种是基于神经网络的句表示,常见的有基于语言模型学习得到句向量。基于语言模型的句表示利用无监督文本语料,利用词与词的共现信息,可以进行大规模的训练。它的优点是利用无监督语料,成本低。缺点是无法学习到句子之间隐藏的语义联系,而学习句表示时,忽略句子间的信息是极为不合理的。
Skip-thought的想法和Word2vec是一致的。在一句话中,一个词与它的上下文存在某种语义联系,那么在一段话中,一个句子与其上下句也是存在某种语义联系的,Skip-thought的动机和Word2vec[4]中的Skip-gram类似,是想通过一个句子预测出它上下文的句子,以此来训练得到句表示。Skip-thought模型的神经网络结构是在机器翻译中最常用的Encoder-Decoder架构,而在Encoder-Decoder架构中所使用的模型是GRU模型。因此在训练句子向量时同样要使用到词向量,编译器输出的结果为句子中最后一个词所输出的向量。
我们之所以要研究句表示学习方法,是因为当时域语言定位任务给出一句自然语言描述时,我们需要将整个查询描述输入到一个语言处理器中,然后将这整个查询描述编码为一个特征向量,而这里的语言处理器,就可以是句表示学习方法中的一种,比如这里着重介绍的Skip-thought。
紧接着,让我们来介绍一下我们将用到的一项核心模型,深度学习中的神经网络。神经网络之所以会出现,就是要模仿出生物的组成结构和神经网络的功能,再利用特定的数学模型来完成模拟,比如对人类的神经中枢系统进行模拟。因此,神经网络中的数学模型由人工设计的神经单元来组成,而神经单元都是由线性函数构成。神经网络是一种拥有学习能力的计算机模型系统,被看成是一种自适应的系统。在模型模拟现实需求的过程中,通常是通过统计学中定义的优化方法作为学习方法来得以不断学习、不断优化模型表现。[5]因此,神经网络可以看成是一种基于统计学方法的非线性函数。通过统计学习方法,在不断优化中,可用函数来表达的局部结构空间被学习得到。[6]而典型的人工神经网络[7]由三个部分共同组成,分别是网络架构、激励函数和学习规则。网络架构决定神经网络中各子单元的位置和相互之间的逻辑关系,如神经网络中的变量参数一般为各个神经元之间相互连接所需要的权重。激励函数则定义了神经元之间是怎样通过相连接的前向神经元的刺激状况来产生相应的激励值,通常激励函数是基于神经元相互连接所产生的权重来产生激励的。而学习规则明确了随着不同输入的不断计算调整模型中的参数的规则。[8]
进一步的,我们需要对要用到的卷积神经网络做个总结。卷积神经网络的设计灵感来自于脑神经科学家对于人类在处理视觉信息时候的大脑反应的观察,这也是为什么神经元之间的连接模式类似于动物的视觉皮层细胞单元。从实验观察中发现,人类的神经元在对视觉信息做出反应的时候,不同的区域,其电流强度是不一样的。而神经元之间存在高强度反应区域的相互叠加,通过这种叠加使得神经元可以完整地处理全部视觉信息。相比于基于传统特征构建模型的机器视觉算法,卷积神经网络具有更好的普适性,即不需要太多的预处理工作。这样的优点使得神经网络学习不用构建在过往计算机视觉中必然需要的针对特定场景设计的图像处理单元,这一优点也是神经网络能广受欢迎并在实际应用中有更加优秀表现的主要原因。
视频特征,相比于图像特征,最主要的就是多了时序信息,二维卷积神经网络利用视频的光流特征来获取短期的时序特征,然而光流特征的提取计算消耗非常的大。[9]为了解决这个问题,Tran[10]提出使用均匀采样的视频图像拼接作为输入,利用三维卷积核在视频的时序空间上同时进行卷积,来获取视频中的时序信息和空间信息。与二维卷积核相比,三维卷积核具有时间纬度,处理一段时间内的连续的图片序列。Tran经实验发现3*3*3的卷积核效果最佳,整个C3D网络共有8次卷积操作,4次池化操作,一次输入16帧图像。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。