IP报文流中非80端口HTTP报文的统计分析文献综述

 2022-09-23 20:23:28

  1. 文献综述(或调研报告):

超文本传输协议(HTTP)是一种用于分布式、协作、超媒体信息系统的应用程序级协议。HTTP报文主要有HTTP请求报文与HTTP响应报文[1]。HTTP请求报文由请求行,请求头(header)和请求数据(body)三部分组成,而HTTP响应报文由状态行、消息报头和响应正文三部分组成。通过了解HTTP报文结构,我们可以从抓取的报文中筛选出我们所需要的HTTP报文。

准确的流量分类对于许多其他网络活动至关重要。应用贝叶斯(Bayes)分析技术[2]对网络流量进行分类,可以进一步提高网络流量分类的精度。通过利用手工分类的网络数据将其作为受监视的Naim Bayes估计器的输入,实现对网络流量的精确分类。该方法的最大特点在于使用已知流量的示例,仅使用通用信息对流量进行分类,通过改进,该方法可将网络流量的分类精度提高到95%以上。

通过简单的统计指纹也可对流量进行准确分类[3]。该文章提出了一种基于捕获的IP数据包的三个简单特性的流分类机制:它们的大小、到达时间和到达顺序。通过紧凑高效的结构和基于归一化阈值的分类算法来有效地提高流量的准确分类。

网络管理和监控的任务依赖于对不同应用和网络协议生成的网络流量的准确描述。通过机器学习(Machine Learning)算法[4]:贝叶斯网络、决策树和多层感知器,然后对六种不同类型的网络流量进行分类。文章通过研究流量分类性能对训练数据数量和组成的依赖性,最终表明贝叶斯网络和决策树等ML算法适用于网络流量在高速上进行分类,同时证明了对动态更改其源端口的应用程序的鲁棒性。

新的Internet应用程序不使用通用的端口号或者使用其他协议(如HTTP协议)作为包装器,以便在不被阻止的情况下通过防火墙。因此,通用端口号不能再用于可靠地识别网络应用程序,基于内容的分类方法[5]可以准确的将那些原本归类为未知的事物进行分类,识别出那些原本可能被错误归类的流量。在协议交换中使用特定的应用程序级功能[6]来指导标识也可以在一定程度上提高流量分类的准确性,通过从IP流量有效负载内容中自动提取应用程序签名,可以在高速链路上进行在线应用程序识别。

在黑暗中运行的多级流量分类[7]具有三个重要特点:(1)无法访问数据包有效负载(2)不知道端口号(3)除了当前的流收集器提供的信息外,没有其他信息。通过对社交、功能和应用程序级别多层次的分析,能够对80%-90%的流量进行分类,准确率超过95%。

自90年代末点对点(P2P)网络出现以来,P2P应用程序成倍增加,变得复杂,成为互联网流量的重要组成部分。最初P2P协议使用特定的应用程序TCP和UDP端口号,但是,当前的P2P应用程序能够使用任意端口来“伪装”它们的存在。因此,需要对P2P流量中数据包的有效载荷进行检查,基于P2P网络的连接模式[8]来识别传输层的P2P流,通过使用网络动态知识而不是用户负载来描述P2P流量,通过P2P流量识别的有效荷载技术在跟踪中发现P2P协议;通过对P2P主干流量的特征分析[9],文章指出根据所使用的协议和指标,大约30%-70%的与P2P应用程序相关的流量无法使用通用的端口进行标识。通过使用非基于端口的方法,如使用包大小模式来识别P2P流量会提高对P2P流量的识别。

徐鹏、刘琼、林森教授的基于支持向量机的Internet流量分类研究[10]为我们的分类方法提供了新的思路。由于贝叶斯及其改进算法过分依赖样本空间的分布,因此其具有内在的不稳定性,文章提出了基于支持向量机的流量分类方法,利用非线性变换和结构风险最小化原则将流量分类问题转化为二次寻优问题,具有良好的分类准确率和稳定性。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。