本技术方案介绍了一种多模态大型语言模型的构建技术与系统,涉及收集图像样本数据及其对应的文本数据,文本数据需准确描述图像内容。
背景技术
现有大语言模型(Large Language Models,简称LLMs)在自然语言处理(NaturalLanguage Processing,简称NLP)领域取得了显著突破,这些拥有数十亿至数万亿参数的模型,通过海量数据训练,展现出强大的翻译、摘要、问答和对话能力。
在此基础上,研究人员正转向多模态领域,探索结合文本与视觉理解能力的多模态大型语言模型(Multimodal Large Language Models ,简称MLLMs)。然而,现有MLLMs训练策略具有噪声敏感性,对跨模态表示分布的优化不足,显著影响MLLMs鲁棒性。
因此,现在亟需一种多模态大语言模型构建方法及系统来解决上述问题。
实现思路