本技术方案介绍了一种利用大型模型进行多模态钓鱼网站识别的方法。该方法涉及服务器端对目标网站的URL域名文本和网页截图的提取,之后将域名文本与网页截图分别进行预处理,并通过大型模型进行综合分析,以识别并预警潜在的钓鱼网站威胁。
背景技术
现如今网络技术的快速发展,包括越来越多的在线交易平台,网络购物平台,银行服务等都部署在互联网上,丰富了日常生活,并给予了人们极大的便利,然而当前网络环境下,存在通过制作各类攻击手段,来窃取用户敏感信息,导致用户财产极大损失的攻击者,通过钓鱼网页以及钓鱼邮件窃取敏感信息这类方式最为常见,尽管随着钓鱼检测技术的不断发展,然而同时攻击者的攻击方式也在不断更新变换,面对如此研究的网络钓鱼威胁,急需有效的应对手段,
为降低网络钓鱼对公众产生的威胁,学术界提出许多种钓鱼网站检测技术,主要分为四类:黑名单技术、启发式规则算法、机器学习方法和深度学习技术,然而这些方法都存在一定的局限性与缺陷。
基于黑名单的检测技术
黑名单是以往钓鱼网站URL的列表,通过检测输入的URL是否存在于该列表中来识别其是否是钓鱼网站,当前有许多浏览器都有检测黑名单的功能,以保护用户减少受到的网络钓鱼攻击从而避免造成损失。用黑名单检测由于不需要分析网页具体内容,检测效率很高,然而受限于需要经常维护,且无法检测零日钓鱼网站,也就是无法即时应对新出现的恶意URL。
基于启发式规则算法的检测技术
启发式算法是一种不依赖于预定义的黑名单列表,而是通过分析网站的特征和模式来预测和识别钓鱼网站的技术,这些特征可能包括但不限于网站URL的结构、页面内容、域名的注册信息、以及与已知钓鱼网站的相似性等。启发式算法的核心在于通过这些特征来识别出潜在的钓鱼网站,即使它们尚未被加入到黑名单中,通常启发式算法与机器学习进行结合来检测钓鱼网页。然而启发式规则算法对于攻击者来讲可以通过获取启发式算法进行分析后进行刻意规避。
基于机器学习的检测技术
机器学习检测方法是通过从网站的特征中学习并预测其是否为钓鱼网站,然而机器学习受限于训练数据集,训练集的好坏直接影响模型本身效果,并且对于机器学习来讲其泛化能力较差,无法将其应用到零日钓鱼检测方面。
基于深度学习的检测技术
深度学习由于其神经网络的黑盒机制,相比于其他几种方式能更好的检测出钓鱼网站,并使得攻击者无法通过找寻其规律从而进行规避,然而深度学习对平台训练硬件有着较高的要求。目前,通过视觉信息的钓鱼网站检测模型,包括视觉相似性,通过判断网页与合法网页之间的视觉相似性程度来作为其检测依据,这类统称单模态,这类方法导致模型对训练数据集存在严重依赖,也有将图片与文本相结合的深度模型,然而此类模型缺乏文本与图片之间的语义信息,导致模型对零日钓鱼检测方面效果不佳,并且对训练数据集中不存在的钓鱼网站没有识别能力。因此迫切需要一种训练压力小,准确率高的深度模型并结合视觉文本语义多模态,并且对训练集数据中不存在的网站也要有一定识别能力的模型。
实现思路