新机器学习算法在不同数据集下的偏差方差及其他统计性质文献综述

 2022-09-26 17:03:42

文献综述(或调研报告):

[1] Pedro Domingos 教授在2000年发表了一篇有关偏差方差分解的文章,给出了基于平方损失函数,0-1损失函数等不同损失函数下偏差-方差分解的统一形式。其给出了基于0-1损失函数的偏差-方差分解的推导过程,适用于机器学习领域所有的二分类问题。此外,作者将该方法应用在了不同的算法及不同测试集上,得出了几个分类器关于迭代次数的学习曲线,我基于该论文的理论推导,设计了偏差-方差损失函数的python实现。

[2] Thomas G. Dietterich 等人在1995年发表了树算法中的偏差-方差分解,并且给出了几种减少偏差、方差的方法,包括bootstraping,bagging。该分解方法主要针对单个数据点,而并非整个测试数据集。其中有提到了一种训练集-池集-测试集提取方法,能够应用于计算偏差-方差分解的过程中。我将对于这些方法基于PMLB数据集进行进一步验证。

[3] Randal S. Olson 等人在2017年发布了PMLB数据集,并基于该数据集进行了部分基本机器学习算法的测试。作者将一些已建立的机器学习方法应用于整个基准测试套件,并分析数据集和算法如何在性能方面进行聚类。由于该数据集包含了大量不同维度的大样本数据集,并且具有不包含缺失数据,分类结果格式统一等优点,故无需进行大部分数据预处理工作,仅需运用数据标准化等部分预处理步骤后直接套用现有的机器学习框架。

[4] Pierre Geurts 等人在2005年发布了第一篇关于极端树算法的论文,在该论文中作者提到了大量不同的模型比较方法,包括(1)默认参数分类器与最优参数分类器之间的比较 (2) 不同训练集、测试集大小及不同训练集-测试集比例之间的比较 (3) 不同超参数下(迭代次数、树分支包含最小样本数等)分类器性质的比较,我将基于上述比较方法以及自己认为还能添加的一些方法(不同y-label分布下的统计性质、用错误分类样本研究算法鲁棒性),对极端树算法、LightGBM算法等的统计性质做分析研究。

[1] Pedro Domingos A Unified Bias-Variance Decomposition and its Applications, Proc. 17th International Conf. on Machine Learning, 2000

[2] Thomas G. Dietterich, Eun Bae Kong. Machine Learning Bias,Statistical Bias and Statistical Variance of DecisionTree Algorithms.1995

[3] Randal S Olson,Willian La Cava, Patryk Orzechowski, Ryan J. Urbanowicz, Jason H. Moore, PMLB: a large benchmark suite for machine learning evaluation and comparison, BioData Mining2017

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。