开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)
- 研究内容
- 认识机器学习与数据挖掘的相关方法,如决策树、k邻近、支持向量机、随机森林、梯度提升树、神经网络等并了解其原理。
- 研究学习python语言基础知识及数据分析的相关语法,为后续研究做准备。
- 建立数据集,构建计算模型,调整参数,预测化合物基因毒性,对结果进行评价验证。
- 研究目的与背景
在大数据时代,计算机科技发展迅速,同时机器学习进入药物研发领域的视野。机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。机器学习被认为是通过数据、算法,让机器从大量已知给定数据中学习规律,并对新样本做分类或者预测。它是人工智能的核心,是使计算机具有智能的根本途径。
机器学习为药物研发、预测化合物性质带来了有力支持,但机器学习的方法仍需要完善,在药物研发中仍面临诸多挑战。通过各计算模型处理数据集,进行分析评估,预测出化合物基因毒性以及最佳模型。
- 研究手段
- 下载机器学习预测化合物性质相关文献,学习其研究方法与思路。
- 数据采集以及预处理,以便更为清晰地分析数据。
- 使用python进行模型建立,再结合所查找的文献推断出结论。
- 文献综述
- 前言:
计算机科学迅速发展,在各领域上也得到运用。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,在药物设计方面得到初步运用。在药物设计中,毒性是导致候选药物失败的主要原因之一,为了有效提供药物开发的效率和成功率,需在药物研发早期阶段对化合物毒性进行评价,采用机器学习算法能够进行预测。
- 正文:
机器学习(Machine Learning, ML) 是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。在药物预测发现中,通过理论计算以及定量构效关系研究,建立具有一定预测能力的模型,为预测药物毒性起到一定的指导作用。主要的机器学习方法有随机森林、逻辑回归、支持向量机、朴素贝叶斯、神经网络等算法,其在决策分类上取得了较好的效果。
在机器学习中,随机森林(Random Forest, RF)是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。每一棵树的算法建造思想为:用N来表示训练用例(样本)的个数,M表示特征数目;输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M;从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的用例(样本)作预测,评估其误差;对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的,根据这m个特征,计算其最佳的分裂方式。随机森林方法可以产生精确度高的分类器,对于一般化后的误差产生不偏差的估计。
逻辑回归(Logistic Regression, LR) 一种广义线性回归,与线性回归模型形式基本上相同,训练速度很快,虽然使用起来没有支持向量机(SVM)那么占主流,但是能够解决普通的分类问题,训练速度也比起SVM要快不少。逻辑回归是研究学习机器学习算法中一种最基本的算法。
支持向量机(Support Vector Machine, SVM),是一类按监督学习方式对数据进行二元分类的广义线性分类器,目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。SVM模型对数据分布的要求低,即对没有先验信息的数据进行分类时,选择SVM是比较好的选择。但是SVM针对多分类问题的分析能力较差,多用于二分类问题分析
朴素贝叶斯模型(Naive Bayesian Model,NBM)是最为广泛的分类模型。NBM是基于贝叶斯定理的监督学习算法,每一对特征之间具有独立性的“朴素”假设。与其他复杂的方法相比,朴素贝叶斯学习和分类要快得多。类条件特征分布的解耦意味着每个分布可以独立地估计为一维分布。这反过来有助于减轻来自维数灾难的问题。
神经网络(Artificial Neural Network,ANN ),从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在各领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。在人工神经网络中,比较典型的是BP(Back Propagation)神经网络,其采用一类误差逆向传播的优化思路,针对多层网络进行调整和整合。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。