在信息安全领域中,机器学习方法在流量分析中得到了广泛的应用。在应用机器学习方法时,许多方面决定着模型的表现,如特征提取,模型选择以及超参数调整。在本文中,作者提出了一种自动化应用机器学习机器实现流量分析目标的通用方法。这种方法依赖于对网络流量的统一表示,通过将不同流量分析任务中的特征表示为统一的形式,结合自动机器学习方法,可以实现对网络流量的自动化分析,而不依赖于大量的背景知识和人力成本。
本文的主要贡献在于:
在应用机器学习方法时,对数据进行编码是非常重要的一环。为了实现上述提出的目标,数据编码需要满足以下要求:
在通用的网络流量表示方法中,主要有语义表示法和非齐二进制表示法,如图:
这些方法都无法很好地满足上述需求。为了解决这一问题,作者基于两种方法的思想,将两种方法进行混合,提出nPrint:
作者将nPrint与自动机器学习方法相结合,提出nPrintML,实现了机器学习自动化的流程,nPrintML的全部流程如下:
使用nPrintML,作者对8个流量分析场景进行实例分析,实验结果表明:nPrintML可以应用于不同场景,获得的模型较传统方法得到的模型性能更好:完整的实验结果如下:
领取专属 10元无门槛券
私享最新 技术干货