本技术涉及一种高效微调预训练模型的技术,包括装置、服务器和存储介质。该技术通过获取文本和图像特征,依据实体类别和可学习参数,实现模型的快速优化。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着大数据技术的发展,自监督学习的预训练视觉语言模型在识别任务中取得了显著的性能。预训练视觉语言模型通过在训练过程中使用大规模的图像-文本对作为输入,以获得与全监督学习方法相当的效果;同时,预训练视觉语言模型对于新的数据集具有很好的可迁移性,并进而较容易地扩展到其他任务,例如:目标检测、语义分割和三维感知;预训练视觉语言模型具有出色的泛化能力,但当预训练视觉语言模型应用于数据有限的下游任务时,由于需要支持难以承受的训练资源,预训练视觉语言模型易灾难性遗忘,失去在训练前阶段获得的泛化能力。
在相关技术中,基于预训练视觉语言模型的参数微调方法,能够解决上述视觉语言模型易灾难性遗忘的问题,相关技术中,预训练视觉语言模型的参数微调方法包括基于适配器的方法和基于提示的方法,其中,基于提示的方法在下游任务的知识迁移方面表现出了更好的性能。在相关技术中,基于提示的方法集中在单一模式提示学习的设计上,忽视了文本和视觉特征之间的相互联系和差异,降低预训练视觉语言模型的微调准确率,此外,基于提示的微调方法所采用的物理机制,不能有效的提高预训练视觉语言模型在下游任务的迁移能力。
针对相关技术中基于提示的预训练视觉语言模型的参数微调方法,准确率低且在下游任务中的迁移能力弱的问题,尚缺少较佳技术方案。
实现思路