基于互信息的模型变量选择及建模算法研究与实现文献综述

 2021-09-25 20:19:25

毕业论文课题相关文献综述

文献综述

流程工业过程的复杂化程度越来越高,整个过程包含几十个甚至上百个操作变量和操作条件,若将所有变量进行建模研究,其过程将十分复杂,如何从这些庞大的数据集里挑选出相关的变量,并建立起相应的模型,而且互信息计算是非常困难的,一个算法的精确度也主要依赖互信息的计算精度。因此我们可以结合信息论中的最大熵和互信息的方法,对测量中的个辅助变量和主导变量的概率分布进行估计,得到主导变量和辅助变量的间的互信息,这些互信息间接的反映了主导变量和辅助变量的相关性,包括线性相关和非线性相关,然后产生随机样本并计算和主导变量间的互信息,重复多次该过程就可以得到一个无关变量和主导变量间的互信息样本,然后寻找一个阈值作为判断相关性的标准,对于互信息小于阈值的作不相关变量处理,并结合测试结果筛选出最佳的辅助变量。而这种基于互信息的变量选择方法具有直观,简单实用和可靠性高的优点,并且有效的改善了模型的估计精度。通过互信息的方法将变量选择以后要根据选择的变量进行构建模型,而针对复杂的工业过程可选取分布式建模的方法进行研究与实现。分布式建模是针对目前复杂工业过程当中非线性、强耦合而提出的一种有效的建模方法。它的提出与应用解决了对复杂大系统研究时整体建模存在的模型结构复杂、模型精度不高和计算繁琐等诸多问题。当模型建立完成后,通过仿真案例来检验模型是否能够满足要求。

一、互信息理论

(一)在变量选择中,如果一个变量含有与某一样本类别相关的有意义的信息,那么这个变量就称为这个样本类别的有信息变量(informativevariable),反之,则认为该变量为无信息变量(uninformativevariable)或辅助变量(interferingvariable)。而信息论中,互信息(mutualinformation,MI)是定量计算两个随机变量间共有信息量良好计算工具,因此,它被广泛认为是作为表示两个随机变量相关性的有效指标。此外,由于互信息能够计算随机变量间的任意依赖,这使得它能够适用于复杂分类任务中信息量的估计,因为若使用基于线性关系,如相关系数的方法容易产生误差。

(二)互信息互信息是一个随机变量包含另一个随机变量的信息量的度量。设2个随机变量和,它们的联合概率密度,其边缘概率密度分别为和,互信息定义为联合分布和乘积分布之间的相对熵,即:

(1)

设某一辅助变量X的样本集为,主导变量Y的样本集为,根据相关公式可以得到变量X和Y的最大熵分布可为,和,再通过公式(1)算出互信息。紧接着再对辅助变量和主导变量进行归一化处理,将各变量的变化范围变换到0-1之间,成为无量纲数据,再采用非线性最小二乘法进行优化,计算得到主导变量和各个辅助变量的最大熵概率函数,再求出最大熵联合概率密度函数,求出得到主导变量和各辅助变量的互信息,确定一个阈值I,对于和主导变量互信息大于阈值的辅助变量,可选做模型输入变量,否则予以剔除。综上所述基于互信息的变量选择方法基本步骤如下:

Step1:对主导变量和个辅助变量进行归一化处理。

Step2:求出各个变量的最大熵的概率密度函数法和主导变量同各辅助变量的最大熵联合密度函数

Step3:由互信息定义求出互信息,根据互信息的大小排序。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。