本技术提出了一种结合增量主成分分析(PCA)和决策树的轻量级无线传感器网络(WSN)入侵检测方法。该方法首先进行数据预处理,包括对CICIDS2017数据集的数据清洗和特征编码。接着,将数据集按70%训练集和30%测试集的比例划分,并进行标准化处理。然后,利用特征提取技术简化数据结构。在特征提取和降维后,使用以信息增益为标准的决策树分类器对网络流量数据进行分类,并采用网格搜索交叉验证优化超参数。该方法能有效满足安全需求,同时适应WSN的资源限制。
背景技术
无线传感器网络(WSN)被誉为21世纪最关键的技术之一,应用范围十分广泛。然而,WSN的固有特性使自身容易受到恶意网络行为的影响,从而严重损害数据传输并破坏网络运行。此外,传感器节点的计算能力和存储容量限制对在WSN中实施有效的入侵检测提出了巨大挑战。物联网(IoT)的普及和广泛应用提高了人们的生活质量,改变了工作的各个方面。相关预测表明,到2025年,全球物联网连接设备的数量将达到1000亿台。无线传感器网络(WSN)是物联网的重要支撑技术,在环境保护、灾害预警、农业生产和智慧城市方面有着广泛的应用前景,WSN是由多个(数百甚至数千个)传感器节点组成,这些节点可以自主的形成网络系统。图1为WSN的基本架构。每个传感器节点收集数据,包括空气质量、土壤湿度、水质和压力等变量,并通过无线通信信道(无线传感器网络)传输这些数据。基站负责从每个节点收集数据,进行适当的处理,并最终通过互联网将其传输到控制中心(控制器),控制中心通常包括数据库、云服务器和各种终端设备。传感器节点本质上是配备嵌入式操作系统(如TinyOS和Contiki)的小型计算机,负责感知、收集和传输数据。这些设备专为成本效益和低功耗而设计,具有有限的通信带宽和计算需求。此外,传感器节点通常以高密度配置部署,需要紧凑的尺寸和轻量级的设计。因此,内存空间和电池容量不可避免地受到限制,需要有效利用以确保WSN的稳定运行。事实上,这些限制在各种物联网设备中也很普遍,所有这些设备的处理能力和能源供应都有限,这是物联网的一个特点。此外,节点长时间暴露在室外环境中,容易受到物理损坏。由于无线通信的特性,WSN中经常出现窃听、故意篡改数据和信号干扰等问题,当这些数据涉及军事行动或医疗领域时,后果可能是灾难性的。许多学者将传统的公钥加密技术和身份认证视为WSN安全的第一道防线。然而,这些传统的安全机制需要大量的计算开销和资源,在传感器节点受限的环境下并不实用。经过研究人员的不懈努力,优化的轻量级加密方案增加了其在低功耗设备上应用的可行性。正是由于上述原因,解决WSN内部的安全问题仍面临一系列挑战。
为了应对各类攻击行为,WSN的安全要求一般包括数据完整性、可用性、保密性等。目前,许多相关文献对针对WSN的恶意攻击进行了分类,根据攻击策略的不同,可以分为主动攻击和被动攻击。主动攻击是指攻击者直接干预节点的正常通信,包括改变数据的原始形式或注入欺诈性数据包以试图造成破坏,例如中间人攻击和能量耗尽攻击。而被动攻击是指攻击者使用网络嗅探器等工具监视节点之间的数据传输,提取有价值甚至敏感的数据。进一步根据在网络中的位置不同,将攻击分为内部攻击和外部攻击,内部攻击通常比外部攻击更难防范,因为攻击者可以冒充合法节点进行恶意活动。同样,针对OSI模型各层的攻击也被进行了分类。表1是WSN中各层常见攻击的分类。
表1针对于WSN的攻击
在针对WSN发起的各种攻击类型中,DoS攻击是其中最常见的攻击,并且可以发生在网络的每一层,这取决于WSN的两个主要特点:传感器节点的资源有限,无法处理大规模数据请求;网络的分布式特性,使攻击者难以追踪。DoS攻击的主要目的是阻断传感器节点之间的通信,使网络无法提供正常服务,最终导致节点瘫痪和能量耗尽。随着各种攻击技术的演变,仅仅依靠第一道防线已经不足以解决WSN中的安全问题,许多研究人员逐渐将入侵检测视为第二道防线。近年来,硬件技术的不断进步和海量数据的产生支持了机器学习(ML)和深度学习(DL)的快速发展,这加速了这两种技术应用于WSN入侵检测的步伐。然而,节点的存储空间、电池寿命、处理能力和通信带宽等资源的稀缺性仍将对入侵检测方法的设计和实施构成一定的挑战。此外,基于ML和DL的入侵检测需要依赖于从网络收集的流量数据,然而,这些数据可能不适合直接输入到模型中,因为存在不必要的冗余特征、噪声,尤其是高维问题,不仅增加了存储要求和计算成本,而且对模型训练产生不利影响。
基于ML和DL的入侵检测在WSN中的应用引起了广泛的关注和大量的研究。与传统方法相比,它们显示出巨大的潜力和优势,为解决WSN的安全问题开辟了新的途径。Abhale和Manivannan将几种监督学习算法(包括DT、RF、SVM、NB等)应用于WSN中的入侵检测,并在NSL-KDD上进行了测试,其中SVM在几种模型中总体准确率最高。Chandre等人比较了不同ML技术在WSN入侵检测中的性能。作者在本研究中使用卷积神经网络作为分类器,并在WSN-DS上进行了测试。根据他们的研究结果,DL比ML表现出更好的检测结果。Chaurasiya等人对几种应用在WSN入侵检测中的ML技术进行了比较,并提出了一种基于DL的WSN入侵检测方法,即密集人工神经网络(Deep-ANN),在NSL-KDD数据集上的准确率达到96.45%,稍微领先于DT和SVM。缺点是作者没有考虑计算成本和模型复杂性的额外影响。尽管在许多情况下,深度学习可以为入侵检测提供更高的准确率,但它们通常需要相当大的计算能力,这在资源受限的情况下可能具有挑战性。Wazirali和Ahmad比较了不同机器学习算法在检测WSN中的DoS攻击方面的性能,他们将WSN-DS划分为各种数据子集,并在这些不同大小的分区上开展工作。结果表明,统计和基于逻辑的机器学习模型在数值统计数据集上表现最佳。此外,他们指出,在传感器节点上使用深度学习算法可能要求过高,因为深度学习需要大量训练才能实现高精度。同样,Ahmad等人也提出了一种基于DL的入侵检测方法,并对基于ML和DL的网络入侵检测系统进行了一系列比较,其中约80%的方案是基于DL的。然而,他们指出这些方案的实现非常复杂,需要大量的资源消耗,这些不足之处必须进一步解决。Otoum等人介绍了一种基于DL的入侵检测系统,称为RBC-IDS(受限玻尔兹曼聚类),并将其与基于ML的自适应IDS(ASCH-IDS)进行了比较。作者发现,两个系统的准确率和检测率都差不多,但RBC-IDS的检测时间几乎是ASCH-IDS的两倍,这表明DL在一定程度上增加了计算负担。
越来越多的研究人员将特征工程技术与ML相结合。原因之一是网络攻击技术的不断发展,单一的检测技术不足以有效防御。另一个原因是降低模型的复杂性,从而减轻系统负载。Khammassi和Krichen[25]
引入了一种GA-LR包装器方法,通过从UNSW-NB15和KDD99数据集中识别最佳特征子集来解决高维数据的挑战。该方法首先采用GA遗传算法作为搜索策略,然后采用逻辑回归来评估和选择最佳子集。Dener等人首先使用皮尔逊系数根据相关性选择特征,然后将其与信息增益比特征选择方法相结合。最后,将数据输入LightGBM分类器,该分类器在WSN-DS数据集上实现了99.95%的整体准确率。Meng等人在基于WSN的场景下,使用LightGBM模型作为基础分类器,并应用递归特征消除进行特征选择。最后,在WSN-DS上进行测试,建模时间减少了46%。然而,递归特征消除是一个迭代过程,这可能会增加额外的开销。Elsadig开发了一种基于决策树和基尼特征选择方法的轻量级ML方法。该方法已在WSN-DS上进行了测试,并与其他传统ML分类器进行了比较,处理时间仅为0.13秒,准确率达到99.5%,这项研究进一步强调了DL并不构成WSN的最佳解决方案。从相关研究可以看出,大多数轻量级入侵检测解决方案都是通过使用各种特征选择技术来选择最佳数据特征子集来实现的,而特征提取在这方面的相关解决方案较少。与特征选择方法不同的是,特征提取技术将原始数据转换为新的低维特征空间变量,这些变量封装了原始数据固有的结构和信息。
因此,有必要开发一种轻量级的入侵检测方法,以减少计算复杂度和节点存储成本,从而在安全性和功耗之间保持相对平衡。
实现思路