本技术公开了一种针对多模态数据离散语义编码的装置和方法,方法包括以下步骤:S1、数据编码器的输入数据为x,采用LSTM对于文本数据进行编码,采用CNN模型对于图片进行编码,输出结果为一个多维张量h;S2、将h中代表现实意义的维度作为主要坐标输入Transfomer,然后经过数层Transfomer计算后,用Transfomer的前M个维度预测q(z|h)。本方案通过新的损失函数实现数据编码z的离散化,保证z包含丰富的信息,最大程度的保留原始数据中的信息点。
背景技术
将多模态数据转换为离散编码在许多行业有着重大意义。首先因为离散变量相较于连续的模拟数据占据更小的空间,因此可以大大的节省数据存储的空间,对于数据湖、物联网和边缘计算领域有着很高的作用,大大节省成本。其次,对于离散编码可以更加高效的被检索,因此对于大规模的信息(图片、文本、视频等)信息检索,离散编码有着巨大的优势。最后,离散编码相较于连续的向量有着更好的可读性,对于促进科研人员理解人工智能系统,进行人工智能决策优化有着重要的作用。
实现思路