- 研究背景和意义
我国互联网始于1994年,NCFC率先与美国NSFNET直接互联,实现了中国与Internet全功能网络连接,标志着我国最早的国际互联网络的诞生。中国科技网成为中国最早的国际互联网络。截止到2017年底,我国网民规模达7.72亿,较上年新增网民4074万人,互联网普及率为55.8%。中国手机网民规模达到3.56亿,占整体网民比例为69.3%,较上年底增长5285万人。不到20年的时间里,我国已建成全球第一大网,网民人数最多,联网区域最广,互联网产业发展迅速。
互联网的兴起对于人们的工作方式和生活方式具有深刻的影响意义。小到个人的工作、生活、学习、娱乐,大到企业、国家的生产、发展,无时无刻不在利用和享受着互联网在各个方面带来的便捷和效益。
互联网用户覆盖率不断增加,不同服务和应用层出不穷。网络流量的数据规模日益庞大,流量组成也日渐复杂,为保证互联网的良性发展,相关技术需要不断升级。第一,在互联网用户不断增长的今天,必须充分利用有限的网络带宽资源,才能给予用户更加优质的服务质量。网络运营管理人员需要对网络流量进行分类来得知不同流量的使用情况,从而对网络资源进行合理分配;第二,网络协议的制定者和网络应用的设计者需要根据各类网络流量使用现状对其发展趋势做出正确预估,通过检测不同的网络流量,能够根据不同应用产生的流量对于网络的影响而采取对应的管理手段,从而实现有针对性的流量管理、网络优化、态势预测,这对合理规划网络、节省运行成本和提高服务的质量都具有了深刻的意义。第三,网络安全问题热度高居不下,许多不法黑客利用恶意流量对用户上网行为带来损失,网络监管部门需要对恶意流量进行准确、及时的识别,以便在其发挥作用前进行拦截或预警。因此,网络流量分类技术的研究一直以来受到产业界、学术界和网络监管部门的广泛关注。
传统的流量识别方法大致分为基于端口的流量识别方法与基于深度包识别方法。传统的网络应用程序一般采用特定的端口号,因此基于端口的流量识别方法通过使用端口号来辨认不同的应用流量。简单直观,容易实现是这种方法的优点。而且在传统的网络环境下,识别效率与准确率均可以达到非常高的水平。随着互联网的发展,大多网络应用都采用了动态端口,导致传统的基于端口的识别方法在动态端口的情况下,无法识别出准确的应用类型。深度包识别技术通过提取目标应用流量和待识别应用类型的流量的数据包中固定的特征码并对两者进行比较,判断该流量是否属于目标流量类型。由于前提是分组数据的荷载部分可见,并且需要载荷部分的特征使己知的,深度包识别技术的识别场合受限,尽管此方法准确性高,而且取得了广泛的应用(比如 L7-filter 开源工具)。针对传统流量分类算法的种种局限使得基于机器学习的流量识别方法应运而生。
机器学习的流量识别方法通过统计数据流量的各种信息来判定应用类型,因此也被称为基于统计的数据流量分类方法。其凭借分类范围广、能够处理高维度数据等优势,成为当今数据流量分类领域最炙手可热的技术。伴随着对机器学习研究的逐渐加深,现今已经有众多研究者使用机器学习算法对数据流量进行过分类。
二.国内外研究状况
在研究网络流量分类的早期,依据端口来判定是主要的方法,识别方法设计的原理是各个网络应用在 TCP/IP 协议上端口是固定的。端口判定方法发展到现在已经很普及,其特点是易于实现,在高速骨干网的场合下可以实现实时的流量分类。早期的研究中 Karaginnis对九类常用的网络应用进行了相关的实验分析,提取了每个数据包的前 16个字节,同时结合了端口启发式规则,实现了流量类别的判定[1]。Karagiannis在之后还提出了基于传输层行为的BLINC(Blind Classification)网络流量识别方法[2]。该方法不需要获取 P2P 端口号和应用签名,因此其针对未知的网络协议的检测效果非常良好。但是其局限性表现在网络环境不同的情况下,连接状态的不同,导致方法的识别效果具有很大的差别性。随着网络的不断发展,网络流量的类型不断增多,动态端口的出现,使得端口判定流量识别方法想要高效准确的进行流量分类变得越来越难。
为了解决这一问题,发展出了第二种基于流量数据载荷的识别方法,该方法主要是通过深度包检测技术,检查流量数据包的有效载荷部分的“指纹”,根据不同的“指纹”特征来识别不同种类的流量。这一方法的特点是相对比较成熟,而且不会受到端口号的影响,但是如果流量数据经过加密,难以正常的提取载荷部分的特征信息,也就无法通过该方法得到识别结果了,而且该方法需要解析载荷数据,不利于保护用户隐私。
近几年,基于机器学习的流量识别方法已经成为了国内外课题研究的重点。在2004年,PerryLorier[3]等人首次提出了一种基于机器学习的网络流分类方法。该方法放弃传统针对单一数据报文分析的方式,将数据报文组成的聚类视作分析对象,根据每个聚类不同的流量特征进行分类。文中通过实验验证了送种基于机器学习的流分类方法的稳定性和有效性。此后基于机器学习的网络流识别研究逐渐开始成为热点。同年,McGrregor[4]等人以流持续时间、包间隔时间,包长等作为统计特征,利用期望最大化(EM)算法,将流量按其类型(如小规模传输、批量传输等)进行了分类。J.Zhang[5]等人在2013年提出了一种改进的最邻近方法用于网络流分类,该方法使用样本数据的相关信息改善分类的性能。Y.Hong[6]等人在2015年提出了一种新的迭代调整机制,通过该机制可加快基于支持向量机(SVM)的分类算法训练速度。
在国内2017年程光,陈玉祥[7]通过将蒙特卡洛仿真方法估计值的误差和相对熵作为流量分类测度,采用基于支持向量机(SVM)的分类方法(SVM-ID)对加密流量和非加密的压缩文件流量进行了分类; 吴辉[8]通过改进的模糊K-Means聚类算法实现了对HTTP、FTP、BitTorrent、SMTP流量进行了分类。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。