本技术公开了一种基于知识图谱的多模态习题表征方法,涉及多模态表征技术领域,包括:获取多模态信息的数学习题信息以及相关知识点,提取多模态习题涉及的所有元素;提取多模态习题的图像和文本特征;基于表层理解规则,明确习题文本和图片中各元素之间的空间关系,并构建表示表层信息的知识图谱;基于隐层理解的规则,将习题涉及的相关定理和公式转化为形式化语言,并构建表示隐层信息的知识图谱;将表示表层信息和表示隐层信息的知识图谱融合为表示完整的习题信息的知识图谱;基于表示不同习题信息的知识图谱节点和边,计算习题之间的相似度和困难度及文本知识图谱和图像知识图谱的匹配度;基于自动解题模型,获得习题的深度表征。
背景技术
Coursera和Udemy等在线学习平台引起了广泛关注。这些平台积累了大量的习题数据,并利用从这些习题来提供量身定制的教育应用程序。在这类问题中,数学习题的表征颇具挑战性,因为其本身就很抽象,而且缺乏直观理解。尤其是数学中的几何习题,理解起来更困难,因为它们涉及更广泛的符号和复杂的关系。但几何题往往以多模态形式存在,图表与文字部分相互补充,因此多模态几何题的解答极大考验模型的逻辑推理能力,其表征成为智力教育领域的研究热点。在最近的研究中,陆续探索了各种方法来实现多模态习题的表征。这些方法包括预训练方法和结构化知识表征(例如知识图谱)技术。预训练方法有助于基于任务或问题属性对多模态数据特征进行自监督学习。然而,这种方法需要从大量问题数据集中全面获取信息方面,并且很难充分表示数学符号之间的关系。以知识图谱为例的结构化知识表示技术在表示多模态数据方面表现出显著的有效性。但是,一些流行方法主要集中在单模态文本问题的部分内容信息上,这对于理解包含多种模态的几何习题来说是不够的。因此,在不依赖大量数据集并能够准确地将习题的几何图像等多模态信息以及基本定理和数学符号等隐式信息表示出来,并将它们有效地整合在一起以改进后续任务,是一个显著的挑战。目前现有技术中难以通过大量习题数据有效地捕获全面信息,从而导致下游任务性能的提升受阻,因此亟需提出一种基于知识图谱的多模态习题表征方法。
实现思路