文献综述
多任务学习[1]是一种非常重要的机器学习模式,他旨在用其他相关任务来提升主要任务的泛化能力。简单说来多任务学习是一种集成学习方法,通过对几个任务同时训练而使得多个任务互相影响。它把从多个相关任务中学习到的信息集中起来,对于这些任务而言,多个信息源可以来自多个数据集,甚至来自单个数据集。在相关研究中,受到更多关注的是为多个任务使用多个数据集的情况。因此,有学者提出使用收集的MNIST、NOTNIST[2]和FashionMNIST[3]图像数据集分别进行数字识别、字母识别和时尚单品识别并对比多任务学习和非多任务学习的精度差异。
多任务学习中的信息共享可以通过多种形式实现。对于基于神经网络的深度学习,共享可以发生在输入层,隐含层或输出层。 输入层多任务合并了异构的输入数据,隐含层多任务共享多组隐藏层单元,输出层多任务合并了多个类别的输出组。多任务学习系统的实现取决于手头的数据和任务。对于多任务学习,很多学者也都发表了自己对它的研究成果与创新。
台湾的Chang Jia-Ren等人[4]提出了一种称为Maxout network In Network的新型深度架构,该架构可以增强模型的可识别性,并在接受领域内促进信息抽象的过程。该架构采用了最新的Network In Network结构的框架。作为对MLP的代替,他们使用Maxout MLP来学习各种分段线性激活函数,并调解使用整流器单元时可能出现的梯度消失的问题。此外,通过对模型进行预处理,可以应用批量归一化以减少maxout单元的饱和度,并且可以应用dropout来防止过拟合。最后,在所有池化层中使用平均池化来规范化maxout MLP,以便在容忍对象位置变化的同时,促进每个接受域中的信息抽象。由于平均池会保留本地补丁中的所有功能,因此建议的MIN模型可以在训练期间强制抑制无关信息。他们的实验证明了将MIN模型应用于MNIST,CIFAR-10和CIFAR-100数据集时的最新分类性能,以及与SVHN数据集相当的性能。
而Ciregan Dan等人[5]则提出了一个名为Multi-column Deep Neural Networks的新模型,翻译过来就是多柱深度神经网络。文章中用了大量的篇幅来描述实验结果,用了MNIST,NIST SD 19等数据集来证明模型的通用性。这里的Multi-column的意思就是指用训练样本去训练多个DNN,然后用训练好的多个DNN来进行图像分类,最后对每个DNN所给出的分类结果求平均。他们的灵感来自于大脑新皮层的启发,大脑中的模式识别器的冗余系数很大,这不仅仅是为了处理突发情况。大脑中的模式识别器的成功识别虽然都来自于大脑自身的经验,但是每个模式识别器接受的输入的刺激是不同的,这些不同的模式识别器增加了大脑对不同形态的苹果的识别成功率,这就是冗余带来的最大的好处。MCDNN的想法受此启发顺势产生。
Collobert Ronan等人[6]在他发表的论文提出:用DNN的方法,将language model, pos-tag, NER, chunk, SRL(Semantic Role Labeling )统一到一个框架中,最终利用language model, pos-tag, NER, chunk等任务中自动学习的feature来提升SRL的性能,实验结果与state-of-the-art相当。除了从未标记文本中学习的语言模型外,所有任务都使用标记数据,这代表一种对共享任务执行半监督学习的新颖方法。他们展示了多任务学习和半监督学习如何提高共享任务的泛化能力,从而形成具有最新性能的学习型模型。
Deng Li等人[7]对在ICASSP2013特别会议上题为“用于语音识别和相关应用的新型深度神经网络学习的新类型”的受邀论文和有贡献的论文进行了概述。在特别会议上介绍的论文的技术概述共分为五种改善深度学习方法的方法:(1)更好的优化;(2)更好的神经激活功能类型和更好的网络架构;(3)确定深层神经网络无数超参数的更好方法;(4)更合适的方法来预处理深度神经网络的语音;(5)利用多种语言或方言的方式,与高斯混合模型相比,利用深度神经网络更容易实现。
从自然语言处理和语音识别再到计算机视觉和药物发现,多任务学习已经成功的应用到很多领域中来。而LeCun Yann等人[8],Ramsundar Bharath等人[9]以及Sato Ikuro等人[10]的研究发现对多任务学习在文件及图像识别和药物发现上进行应用的可行性又打了一针强心剂。
目前最先进的目标检测网络需要先用区域建议算法推测目标位置,像SPPnet和Fast R-CNN这些网络已经减少了检测网络的运行时间,这时计算区域建议就成了瓶颈问题。Ren Shaoqing等人[11]在他们的论文中介绍了一种区域建议网络,它和检测网络共享全图的卷积特征,使得区域建议几乎不花时间。RPN是一个全卷积网络,在每个位置同时预测目标边界和objectness得分。RPN是端到端训练的,生成高质量区域建议框,用于Fast R-CNN来检测。通过一种简单的交替运行优化方法,RPN和Fast R-CNN可以在训练时共享卷积特征。对于非常深的VGG-16模型,论文中提出的检测系统在GPU上的帧率为5fps(包含所有步骤),在PASCAL VOC 2007和PASCAL VOC 2012上实现了最高的目标检测准确率(2007是73.2%mAP,2012是70.4%mAP),每个图像用了300个建议框。
Ruder Sebastian[12]发表了他对有关多任务学习在深度神经网络中应用的看法,尽管最近的许多深度学习的工作都或显式或隐式使用了多任务学习作为其模型的一部分,但是使用方式仍然没有超出他在文章中提到的两种方式:参数的硬共享与软共享。相比之下,仅有少部分的工作专注于提出深度神经网络中好的多任务学习机制。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。