本技术方案介绍了一种视觉常识推理去偏技术与系统,属于视觉常识推理技术领域。该方法包括获取图片与原始文本,将图片与原始文本配对形成负样本,旨在提高视觉常识推理的准确性和去偏效果。
背景技术
近年来,随着科技的高速发展,人工智能对于人类生活的影响大大提高。与此同时,机器与人类的互动也成为科研工作的研究热点之一,而视觉常识推理便是其中的一个子方向。视觉常识推理指的是根据图片回答相应的自然语言问题,并且需要进一步给出相应的解释。目前,该领域面临模型依赖于数据集偏见预测错误的问题。具体来说,模型可能只根据单一模态与候选答案的共现或者基于同一类型模态信息引导的答案频率进行预测,在测试集上的表现不佳。
实现思路