本技术介绍了一种结合YOLOv5和ResNet-101的钓鱼网站识别方法,旨在构建和训练一个高效的钓鱼网站检测网络模型。该模型集成了目标检测模块和相似度计算功能,以提高钓鱼网站识别的准确性和效率。
背景技术
近年来,网络钓鱼事件的数量急剧增加,为应对日益严峻的网络钓鱼威胁,出现了针对URL、html和网站截图的网络钓鱼检测方法。其中,基于目标检测的网络钓鱼检测方法旨在网站截图中识别出网页关键信息,即合法品牌Logo。然后结合URL中提取的域名,为用户生成二进制的网络钓鱼报告(合法和非法)。
常见的传统目标检测算法包括HOG+SVM、DPM等。这些方法在目标检测任务中存在一些局限性:特征提取依赖人工设计、滑动窗口和候选区域生成效率低、检测精度不高和难以应对多目标检测。网页中Logo基本都是小目标,检测精度不高会导致大量的漏报和误报。
随着深度学习的发展,诞生了许多基于卷积神经网络的目标检测算法,自动从数据中学习特征,省去手工设计特征的步骤,并提升检测速度和精度。其中,YOLO作为代表性算法之一,具有显著的特点和优势,并且YOLO出现至今一直在改进。YOLOv5继承了YOLO家族的快速、高效的特点,并在此基础上进一步优化,使其不仅更加轻量化,而且在精度和速度上实现了更好的平衡。凭借其多样化的模型版本、易于使用的特性以及强大的社区支持,YOLOv5成为了当前应用最广泛的目标检测算法之一,适用于从嵌入式设备到高性能计算等各种环境中的实际应用。因此,将YOLOv5用于检测网页中的合法Logo。
原始的YOLOv5模型对小目标的检测精度较低,为了提升YOLOv5对小目标的检测精度,在YOLOv5的特征提取网络中嵌入注意力模块,增强模型对小目标的特征学习能力。这些模块通过动态调整通道和空间维度的权重,使模型更关注小目标的关键区域。
得益于YOLOv5的极快的检测速度,可以在检测完成后在通过别的手段来验证检测结果,进而是的检测准确度更高。我们利用在大数据集ImageNet上训练得到的Resnet-101提取改进的YOLOv5的检测结果和合法品牌Logo截图的特征,计算它们的余弦相似度,当相似度高于某一阈值,就认为检测正确,否则就检测失败。
实现思路