本技术涉及图像处理技术,提出了一种多模态信息融合的图像分类技术。该技术通过特征提取网络中的多尺度特征提取模块,对不同模态的原始图像进行多尺度特征提取,实现图像分类。
背景技术
图像分类是机器视觉领域的重要研究方向,这项技术通过提取图像的特征并利用机器学习模型来区分不同类别,在各个领域的多类任务中都具有广泛的应用。
传统经典的图像分类方法大多利用单一模态图像来实现特征提取和分类,单一模态图像的特征表征能力差且信息表达有限,这导致基于单一模态图像的图像分类的准确度和精度不够理想。为了解决上述问题,对多模态图像信息融合后进行图像分类的做法逐渐被应用于各领域的分类任务中,由于不同模态的图像能够提供不同的图像信息,因此这种做法能够实现不同模态的图像信息之间的互补,相比于使用单一模态图像的图像分类方法能够提高分类的准确度和精度。但是现有的基于多模态信息融合的图像分类方法存在对多模态图像信息利用不充分的问题,没有充分挖掘图像信息,导致基于多模态信息融合的图像分类的准确度和精度仍然难以达到令人满意的效果,尤其是在一些图像质量不高的场景下更是难以保证分类性能。
实现思路