本技术方案涉及教育技术领域,介绍了一种在教育知识图谱中检索问题答案的创新方法。该方法涉及获取教育问题集合,分析其中的认知特征和语言风格;利用先进的大语言模型技术,实现对问题的深度理解和答案的精准检索。
背景技术
教育知识图问答(EKGQA)是从教育知识库中提取知识来回答教育问题的任务。尽管在过去的几年里对这一话题进行了深入的研究,但最新研究中使用的大多数数据集过于僵化和简单,无法匹配现实世界的情况。因此,这就需要分析现实世界的教育问题。由于学习者在个人经历、文化背景和认知水平上的差异,他们提问的表达方式和风格类型可能非常复杂,也就是说,问题可能涉及不同的和混合的认知表达和语言风格。
近年来,在线教育已成为全球数亿人学习的一种途径。随着在线教育中数据的不断积累,搜索准确知识的成本不断增加,导致了一种学习者很容易迷失方向的现象。
教育知识图谱(EKGs)提供了一种解决方案,通过将大量分散和非结构化的教育数据聚合为一种结构化和可解释的知识形式,从而降低了用户的访问成本,促进了快速认知增强。因此,EKGs引起了广泛的关注。
为了有效、准确地解决学习者在在线教育中面临的问题,最近的研究工作致力于处理自然语言教育问题,即通过教育知识图谱(简称EKGQA)回答问题。给定一个教育问题和一个背景EKG,该任务涉及从EKGs中检索问题的答案。为了推进EKGQA的研究,已经引入了一些数据集,其中MOOCQA是最具代表性的。
具体来说,MOOCQA包含65K个教育问题,每个问题都至少有一个知识实体作为答案。图1 - (a)显示了一个示例,它包括“修订后的分配概念是什么”,EKG,以及答案“算法”。然而,不难观察到这些问题是僵化和正式的,而在现实中,由于学习者对知识和个人经验的理解不同,他们的提问方式往往是多样的,可能有不同的语言风格和认知表达。例如,如图1-(b)所示,首先,对于同一个问题,不同用户提出的问题的逻辑和清晰度往往有所不同。u1以更详细和礼貌的方式提问,而u2的表达则更直接。其次,由于学习者不同的个人经历和家庭背景,也有可能会出现一些流行语(如“Emmm…”)和汉语方言(如“啥”/“What”),这在现实世界的问题中很常见。
然而,上述问题在很大程度上被现有的EKGQA数据集忽略了。此外,中文的EKGQA数据集的规模比英语的数据集要小得多。因此,目前的基准测试可能不够全面和公平,无法评估EKGQA模型。
实现思路