现代医学史上曾经有一场大灾难,“沙利度胺(反应停)灾难”[1],用于孕妇止吐的药物却摧毁了数以万计的胎儿,全球范围内出现了万余例的畸形“海豹儿”。因为这件事,世界范围内发起来药物警戒这个研究和运动,为了发现、评价、理解和预防不良反应或其他任何可能与药物有关问题。在我国,据国家卫生部药品不良反应监察中心的数据,近几年来中国各级医院的住院病人中,每年约有19.2万人死于药品不良反应,而因药物不良反应需要住院治疗的病人则多达250万人。然而,临床试验不能提供有关不良事件的全面数据,特别是罕见或未知的事件,一不小心就可能再次引发一场医学史的大灾难。为了克服这方面的困难,全球各地都在使用自发报告系统,这些系统采集药物相关的数据,为药物警戒提供丰富的数据来源。例如,VigiBase,世界卫生组织药物不良反应数据库,从其成员国收集了超过1600万份与药物和疫苗相关的不良事件报告[2];美国FDA不良事件报告系统(FAERS),即食品药品监督管理局(Food and Drug Administration)的FDA不良事件报告系统FAERS(FDA Adverse Event Reporting System),从1968年开始使用,如今在全球范围内已经收集了超过1700万份药品报告,而且这个数据仍然以每年30万份增长着[3]。而FDA也是全球最早,最权威的药物监管机构,美国FDA官方网站也是我所知道的最严谨、可靠的医学知识科普网站。不过这个自发报告系统规模的快速增长给数据挖掘带来了巨大的挑战。
从20世纪90年代末开始,为了挖掘重要的药物和不良反应事件之间的关联,涌现出来许多算法和办法。最早被提出的方法是关联规则(association rules,AR),一种机器学习算法,起源于市场篮子问题[4],这也是关联规则经典案例。关联算法是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。反映一个事物与其他事物之间的相互依存性和关联性,但是关联规则被评论缺乏统计稳健性,因此不如统计方法使用的普遍。而在文献资料中,使用的最常见的统计方法就是频数法,例如比例报告比值比法(proportional reporting ratio,PRR)和报告比数比法(reporting odds ratio,ROR)[5-6]两种频数分析法,PRR是早期对自发呈报系统进行定量分析的方法,荷兰Lareb药品警戒中心使用的报告比值比法,PRR和ROR的主要优点就是计算简单,不过这类方法探索不良反应信号的准确性很大程度上依赖可疑药物有关的不良反应报告的数量,如果数据库中报告数量很少,信号探索的准确性会大大降低。除此之外,还有贝叶斯法,贝叶斯法包括了伽玛泊松分布缩减法(Gamma Poisson shrinkage,GPS)[7]以及贝叶斯置信传播神经网络法(Bayesian confidence propagation neural network,BCPNN)[8]。现在FDA采用的就是多项伽玛泊松缩减法(Multi-item Gamma Poissonshrinker,MGPS)。WHO UMC采用的信息分成法(Information Component,IC)也是贝叶斯法的一种。
为了解决多药问题,如药物-药物相互作用和共同用药,DuMouchel等人在2008年将logistic回归(logistic regression ,LR)应用于FAERS数据库。logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是--是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是离散的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。2012年,DuMouchel和Harpaz提出了回归调整GPS(RGPS)算法,RGPS是LR和GPS模型的结合。2018年,Xiao等人还提出了GPS模型的改进版本,即蒙特卡罗期望最大化(Monte Carlo expectation maximization,MCEM),以应对多药问题。Xiao等人假设每个病例报告中的每个不良事件仅由一种药物引起,然后根据GPS信号迭代修改样本(期望步骤),并重新计算GPS信号(最大化步骤)。据我们所知,RGPS和MCEM是药物不良事件相关性研究的最新进展。然而,检测药物之间的相互作用仍然是一个挑战。DuMouchel的多项目GPS模型[9]和LR都可以评估药物-药物相互作用,但它们需要在模型中指定相互作用项。如果对大量药物感兴趣,处理药物数据时的工程量也会翻倍增长,这会大大增加工程难度和需要耗费的时间。
为了挖掘基因变异和性状之间的关联,希望能够让在全基因组关联研究(genome-wide association study,GWAS)中表现良好的方法应用于药物不良反应事件这个问题。随机森林(Random forests,RF)和蒙特卡罗逻辑回归(Monte Carlo logic regression,MCLR)已被证明能有效地检测GWAS中的显著主要影响以及相互作用[10]。随机森林,是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。它有很多优点,堪称机器学习领域的多面手,具有极高的准确率,而且可以有效地运行在大数据集上,能够不降维处理具有高维特征的样本,对缺省值问题也能获得很好的结果等。根据Witte和Fijal的研究,MCLR是确定基因序列和疾病之间所有正确关联的十种方法中唯一的一种,包括基因序列之间的相互作用。如果这些方法被证明能够正确地识别药物与不良事件的相关性,那么将它们应用于识别引起不良事件的药物以及药物相互作用这方面的实验研究是一个可行的选择。
本研究的目的是对所有这些方法准确检测药物-不良事件相关性的能力进行公平的比较研究。这包括频率统计方法(PRR和ROR)、贝叶斯方法(GPS和BCPNN)、多元方法(LR、RGPS和MCEM)和机器学习算法(AR、RF和MCLR)。对于每种方法,绘制其ROC曲线,并计算曲线下面积(AUC),然后利用Youden指数找出拥有最佳灵敏度和指定标准的方法。ROC曲线,全名是接受者操作特性曲线(receiver operating characteristic curve),横坐标是FPR,即假阳率,代表是检测出来的假阳性样本数占所有真实阴性样本数的比率,纵坐标是TPR,即真阳率,代表检测出的真阳性样本占所有真实阳性样本的比率。位于(0,0)到(1,1)直线上的ROC曲线显示性能等于随机猜测。上面更高的ROC曲线与(0,0)–(1,1)线比较,表明算法的性能。AUC(area under curve),顾名思义,就是ROC曲线下的面积,严格来说是ROC与x轴和x=1这条垂直线围起来的面积。AUC越高,越接近于1,代表办法的性能越好。Youden指数的计算方法如下:我们首先计算ROC上每个点的(真阳性率-假阳性率)。这些值的最大值是Youden索引,Youden索引的位置表示算法的决策阈值的最佳切入点。本文中使用的参考标准和评估指标与Harpaz[11]等人的研究相似,但在更广泛和最新的算法以及最新的FAERS数据集上执行。Pham[12]中讨论了算法的背景以及算法的优点和缺点的细节。我们还对这些算法在检测引起不良事件的药物-药物相互作用方面的性能感兴趣,但首要任务是对药物-不良事件关联进行比较研究,以评估针对这一特定问题的不常见方法(MCEM、RF和MCLR)的可行性。因此,这项研究的重点是比较算法及其检测药物不良事件关联的能力。根据这项研究的结果,可能会建议在今后的工作中进行另一项药物以及药物相互作用的比较研究。
说回药物不良反应监测这回事,国外开始药物不良反应监测的时间比较早,美国的FDA的建立是在1906年,至今仍是全球最权威的药物监管机构,而其下的FAERS是一个巨大的数据库,其中包括了FDA收集的所有不良事件信息和用药错误信息,这也是我本次研究的数据来源。美国在药物不良反应监测上有一套严密的工作程序,而且WHO在1968制定了国际药品不良反应监测计划,这更加促进了国外的药品不良反应监测的发展。
中国直到20世纪80年代末才开始药品不良反应监测的试点,就算是对比国际药品不良反应监测计划的制定也慢了20年左右,而在1998年3月,中国才正式加入WHO国际药品监测中心,所以我国的药品不良反应监测相比于国外要落后一些,不过1998年4月建立了国家药品监督管理局,发展也还算迅速。但是我国的药品不良反应监测系统还不够完善,有关药物不良反应的报告率也比较低,无法形成召回政策的依据。
而这个研究相关的除了药物不良反应监测系统,还有因为在FAERS系统中存在大量的原始数据,存在重复、损坏、异常等情况,所以需要数据清洗来处理数据,让数据变得可用,在这方面,国内外的概况也有一些差异。
关于数据清洗,国外最早出现数据清洗的国家是美国,而发展到现在,美国对数据清洗这方面可以说是炉火纯青,国外许多知名高校,如麻省理工学院、斯坦福大学、卡耐基梅隆大学、佐治亚理工学院等将大数据可视化作为研究课题。麻省理工学院的研究团队专门研究城市信息的可视化,出版刊物总计744篇并广为引用。斯坦福大学正在进行的项目包括用于交互式可视化的新垣衍、理论模型、探索性分析工具和设计工具、评估可视化工作的感知实验以及大规模文本分析、人口基因组学等领域的可视化分析系统。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。