文献综述(或调研报告):
核方法是机器学习中一类强有力的统计学习技术,是解决非线性学习问题的重要方法。其核心思想是通过某种非线性映射将原始数据嵌入到一个高维特征空间当中,然后利用线性学习器在该新的高维空间中进行线性分析和处理数据。优点主要归结于以下几个方面:(1)无需知道非线性映射的具体形式和参数,而是引入核函数,通过核函数的变化隐式地改变从低维输入空间到高维特征空间的映射,进而去选择合适的特征空间;(2)利用核函数,可以将在高维空间中复杂的内积计算,转化为在低维空间中核函数的计算,巧妙地解决了高维空间中可能出现的“维数灾难”问题,大大降低了计算复杂度;(3)根据具体问题,灵活地选择核函数,更有利于嵌入更多与学习问题相关的先验知识。
基于核方法的支持向量机(SVM)已经被成功应用于诸多领域。支持向量机建立在VC维理论以及结构风险最小化原理的基础之上,是机器学习领域中举足轻重的监督学习模型。其性能与效率在很大程度上取决于所采用的核函数。基于传统核函数的支持向量机算法需要保留支持向量,通过表示定理来进行特征映射,存在较大的时间与空间开销,并不适用于动态环境中的大规模在线任务。
而大规模的现代数据集需要扩展性强的机器学习方法。在线学习就是对这种呼吁的有效回应,其具有无缝处理大量数据流的能力,因此吸引了广泛研究应用兴趣(例如,[Kivinen et al., 2004; Lu et al., 2015]))。当新的数据样本到达时,传统学习算法通常需要在整个数据集上重新训练模型,代价昂贵。与此不同,在线学习技术利用新数据实例中的“信息”来增量更新模型,而不需要从头重新训练。早期具有开创性的工作是在线线性学习[Zinkevich, 2003],旨在输入空间中学习到线性预测模型。然而,它依赖于一个相当强的线性假设,要求数据与超平面分离得很好,因此无法对现实世界现代数据集中常见的非线性进行有效建模。本文的动机借鉴了在线核学习的相关工作[Kivinen et al., 2004; Crammer et al., 2006; Le et al., 2016a; Le et al., 2016c]。虽然这些方法也基于线性模型,但通过在高维特征空间中进行核变换,提供了捕捉原始空间中非线性数据特性的能力。
然而,当在线核学习应用于大规模数据集时,会存在两个严重的问题。首先,模型规模随数据的增加而线性上升,这就构成了所谓的“核诅咒”[Wang et al., 2012]。这导致了非常高的计算复杂度和内存需求。为了克服这一问题,人们进行了各种尝试,这些尝试主要通过制定有效的Budge维持策略,比如,移除法[Dekel et al., 2005],投影法[Orabona et al., 2009],合并法[Wang and Vucetic, 2009],来约束模式的规模。[Wang et al., 2012]利用了基于随机梯度下降的Budge方法。尽管这些Budge维护策略对正常大小的数据集有效,但它们的计算成本仍然较高,无法推广于大型数据集。另一种方法是使用随机傅立叶特征[Rahimi and Recht, 2007],或者是Fastfood技术[Le et al., 2013]来近似原始核函数[Lu et al., 2015]。这些方法首先将数据映射到一个随机特征空间,然后直接在这个特征空间上执行随机梯度下降,但是需要大量的随机特征来得到一个好的近似解,因此仍然会导致严重的计算复杂性。
第二个缺点是,学习核参数(例如,高斯核中的带宽参数)通常是不可行的,因为核函数中的特征映射没有明确定义,随机特征中的傅立叶分量是从分布中随机抽样的。一种常见的解决方案是用交叉验证和留一法在参数集合中选择最优参数[Nguyen et al., 2016]。然而,这样的网格搜索有两个关键限制:验证次数随参数数量呈指数级增长,因此仍然需要大量计算;由于其在每次接受新的数据点之后都要重新搜索参数,无法高效适用于在线学习模式;由于搜索空间的离散化步骤,导致了参数搜索得到的是典型的局部次优解。另一种解决方法是a la carte[Yang et al., 2015],利用梯度下降来最大化高斯过程(GP)的边际似然率,通过Fastfood技术扩展基函数,将核学习形式化。然而,这种方法也有三个缺点。首先,求解逆矩阵的边际似然率梯度需要庞大的计算开销。其次,高斯过程的边际似然率使它不可能直接应用于在线学习。最后,由于分类的高斯过程没有预测似然率的闭式解,因此需要如拉普拉斯或马尔可夫链蒙特卡罗(MCMC)方法来获得近似解,导致其难以直接扩展到分类任务中。
本课题提出了一种新的随机傅立叶特征在线学习框架,即重参数化随机特征(RRF)。回顾过去,我们发现核学习的重参数化思想已经在[Bazavan et al., 2012]出现。然而,我们最初的直觉来自于所谓的“重参数化技巧”(最近在深度学习文献中提出训练变分贝叶斯自编码器[Kingma and Welling, 2014]),将傅立叶成分的随机性映射到另一个可以独立采样的空间,让原始核参数保持不变,以此分析推导出这些参数的梯度。新的核可以表示为核参数的一个确定函数。假设该函数可微,我们就可以在适当的优化方法下逐步更新学习这些参数。一个自然且重要的问题是评估通过随机特征近似表示的核表现如何。据我们所知,现有工作中仍然不能有效解决这个问题,包括[Bazavan et al., 2012; Moeller et al., 2016]。为了解决该问题,本课题旨在提供一定的理论分析,其中包括推导近似核与真实核之间差异的概率上界。
参考文献:
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。