文 献 综 述
摘 要:随着大数据时代的到来和网络的普及,网络搜索更加普遍,人们需要自动对搜索的内容进行分类,方便服务公众。本文主要对文献中TF-IDF方法,数据挖掘的分类方法进行综述。
关键词:TF-IDF;数据挖掘;分类方法
数据挖掘(Data Mining)就是从大量的数据中获得有效的、新颖的、潜在有用的、最终可理解的模式的平凡过程 [1]。数据挖掘又称数据库中只是发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤 [14]。数据挖掘是帮助使用者产生假设,这一点与OLAP(Online Analytical Process,在线分析处理程序)不同,OLAP是有使用者所主导,使用者现有一些假设,OLAP则用于查证假设,所以是使用者自己在做探索,而数据挖掘是用工具在帮助做探索 [2]。因此,数据挖掘容易发现使用者想不到的结论,也就是数据中蕴含的潜在规则。
数据挖掘是一个应用非常广泛的学科,只要该产业拥有分析价值与需求的数据仓库或数据库,皆可利用挖掘工具进行有目的的挖掘分析。如零售/销售,银行,通信,保险,金融服务,互联网等领域 [3]。
它的实际功能可分为三大类六分项:分类(Classification)和聚集(Clustering)属于分类区隔离;回归分析(Regression)和时间序列分析(Time-series)属于推算预测类;Association和Sequence则属于序列规则类 [1]。
分类是根据一些变量的数值做计算,再依照结果做分类(计算的结果最后会被分类为几个少数的离散数据,如将一组数据分为“可能会响应”或是“可能不会响应”两类)。分类常被用来处理如前所述之邮寄对象筛选的问题。用一些根据历史经验已经分类好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。分类包括两个过程,一个是学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)[14]。
决策树(decision tree)是一种常用的分类方法,它是一种类似流程图的树结构,每个内部节点表示在一个属性上的测试,每个分支代表该属性的输出,而每个树叶节点存放一个类标号。一般选择信息增益最大的属性作为树叶节点。决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。它可以处理高维数据,且获取的知识用树的形式表示是直观的,并且容易被人理解,所以它被广泛应用于各个领域,如医学、制造和生产、金融分析、天文学和分子生物学等 [5]。
贝叶斯分类方法是利用贝叶斯定理的一种分类方法,它可以预测类隶属关系的概率,如一个给定的元组属于一个特定类的概率,分类算法的比较研究发现,一种称为朴素贝叶斯分类方法的简单贝叶斯分类可以与决策树和经过挑选的神经网络分类器相媲美 [7]。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。朴素贝叶斯分类法假定一个属性值在给定类上的影响独立于其他属性的值。这一假定成为条件独立性。做此假定是为了简化计算,并在此意义下称为“朴素的”。
客户关系管理(Customer Relationship Management,CRM)是指企业与客户之间的交互活动进行管理的过程,数据挖掘应用在CRM的主要方式可对应在Gap Analysis的三个部分 [6]:
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。