本技术提供基于GLM‑4的无标注课程知识点图谱构建方法及系统,方法包括:生成知识点图谱的第一层次结构;根据第一层次结构,对章节及下属各级标题进行文档分割操作,得到章节独立单元、分级标题独立单元;进行数据清洗操作,得到预处理章节独立单元、预处理标题独立单元;进行知识点获取操作,调用GLM‑4模型的应用程序编程接口API,并给定prompt指令,据以利用GLM‑4模型,从预处理章节独立单元、预处理标题独立单元中,提取得到符合大纲知识点;利用GLM‑4模型进行噪声去除操作,得到去噪数据;通过余弦相似度算法进行比对;构建知识图谱。本发明解决了知识点图谱在粒度上过于细化,导致知识难以理解的技术问题。
背景技术
在将知识图谱技术与课程内容融合的方案中,现存的知识点图谱在粒度上过于细化。这种过于细化的粒度虽然能够展现更多的知识点细节,但也可能导致学生在学习过程把重点放在繁琐的知识点碎片上,难以形成对知识的理解。过多的细节容易分散学习者的注意力,使其难以抓住核心概念,进而影响对知识的深层次理解和应用能力。
公开号为CN117668239A的现有发明专利申请文献《一种基于知识图谱的知识点动态推荐与教学反馈系统及其实现方法》,该现有系统的知识点子图模块包含用户与系统交互产生的数据,以及构建的知识图谱结合形成的子图,用户完成答题,与题目链接的知识点构成知识点子图,反映用户当前掌握知识点状态。知识点推荐模块根据用户答题情况,将推荐分为巩固推荐与拓展推荐。巩固推荐从知识点子图内,根据知识点子图模块中记录的推荐权重进行知识点推荐,拓展推荐从外部邻域内,根据知识点推荐权重进行知识点推荐,最终获得推荐知识点。习题推荐与可视化模块根据推荐知识点,从习题库中进行匹配抽取,将匹配到的习题与知识子图可视化呈现给用户,实现知识点推荐与可视化。然而,前述现有技术未利用大模型的理解能力,构建知识图谱的精确度及效率不高。同时,在知识图谱构建过程中,前述现有技术的知识图谱获取知识点作为实体,定义关系构建图谱,这样构建的知识图谱缺少层级关系,且对知识点的定位不够明确。
公开号为CN112287037A的现有发明专利申请文献《一种多实体混合知识图谱构建方法、装置及存储介质》,该现有方法包括:将知识点、学生、教学资源作为实体加入到知识图谱中。通过OCR(Optical Character Recognition,光学字符识别)算法、LSTM(LongShort-Term Memory,长短期记忆)算法、TFIDF(term frequency–inverse documentfrequency,词频-逆文档率)算法为教学资源匹配相应的考察知识点,构建教学资源与知识点间的关系,结合学生在不同教学资源上的学习行为,获取学生对知识点的掌握程度,记录学习资源的偏好程度。然而,前述现有方案采用人工方式构建知识图谱,这不仅耗时耗力,而且操作准确度不高。
现有公开文献《大语言模型在学科知识图谱自动化构建上的应用》,该现有文献中,利用大语言模型进行高校学科知识图谱自动化构建。通过融合LLM(Large LanguageModel,大语言模型)的优势,设计一种优化的自动化构建流程。以高校的学科为例,自动提取基于教材、幻灯片、教学大纲的知识实体和知识关系,形成最终的学科知识体系,通过梳理学科知识框架,帮助学生了解各个专业课程之间的知识点关联,快速掌握课程知识要点,并且能够精准回溯知识学习脉络,查漏补缺。然而,前述现有文献直接将教学大纲纳入知识图谱,该方式容易引入更多冗余信息。该现有技术简单地将教学大纲纳入知识图谱,难以筛选出与教学大纲紧密相关的知识点,难以避免冗余信息和无关内容的干扰。该现有文献未对文本数据进行分片处理,这样会导致提供给大语言模型的数据过多,易产生大量噪声。
综上,现有技术存在知识点图谱在粒度上过于细化,导致知识难以理解的技术问题。
实现思路