本技术属于但不限于情感识别技术领域,公开了一种基于模态自适应学习的多模态课堂情感识别方法及系统,通过构建多模态数据采集系统,实时采集课堂教学过程中的文本、音频和视频等多模态数据,并对不同模态的数据进行预处理与特征提取。针对不同课堂场景的情感表达特征差异,提出基于自适应模态评分(AMS)的多模态数据融合方法,并构建时序建模与情感分类模型。本发明的多模态融合与时序建模机制,模拟教师对课堂上学生情感状态的多维度感知,增强了情感识别系统的可解释性。该系统通过多模态数据的融合,将来自文本、音频和视频的数据特征进行加权融合,形成完整的情感特征表示。
背景技术
随着教育技术的不断发展,课堂情感计算逐渐成为智能教育系统的重要组成部分。学生在课堂中的情感状态直接影响其学习动机、专注力以及整体学业表现。研究表明,积极情感(如兴趣、愉快等)能够提升学生的认知灵活性、学习动机和课堂参与度,从而促进学习效果;而消极情感(如焦虑、沮丧等)则抑制学生的认知功能,降低信息处理效率,甚至导致对学习任务的回避。因此,准确识别课堂情境中的学生情感状态,不仅能够帮助教师优化教学策略,还可以提升教学的个性化和针对性,以更好地满足学生的学习需求。
现有情感识别技术大多依赖于单一模态(如面部表情或语音信号)数据进行情感分析,虽然在某些情境下取得了一定效果,但由于课堂环境中情感表达的多样性和内敛性,单模态识别方法通常缺乏鲁棒性,识别精度不高。为此,研究者们逐渐转向多模态情感识别方法,通过融合多个模态的数据(如文本、语音、视频),从多个角度捕捉学生的情感特征,进而提升情感识别的准确性和适应性。然而,现有的多模态情感识别方法普遍采用静态模态融合策略,即在不同情境下使用固定的模态权重组合来处理数据。这种静态融合方法难以灵活应对课堂场景的变化,导致在情感表达复杂且多变的课堂环境中,系统难以捕捉到情感特征的动态变化,识别精度和适应性均受到限制。
针对这一问题,自适应模态选择技术逐渐受到关注。该技术通过动态调整不同模态的权重,使情感识别系统能够在不同情境下实现更高的灵活性和精度。例如,在安静的对话场景中,语音模态可以通过语调和节奏传递出丰富的情绪信息,因此语音模态的权重较高;而在噪声较大的课堂场景中,视觉模态(如面部表情和肢体语言)则更为关键。然而,现有的自适应模态选择方法大多忽视了课堂情境的变化,无法有效识别和适应不同课堂场景中的情感特征差异,导致识别效果有限。
现有技术存在的技术问题
基于上述分析,现有多模态情感识别方法存在以下急需解决的技术问题:
静态模态融合的局限性:现有多模态情感识别方法大多采用静态融合策略,无法根据课堂场景的动态变化灵活调整不同模态的权重,导致系统在情境变化时识别精度下降。
情境感知的缺失:现有方法缺乏场景感知机制,难以有效识别和适应不同课堂场景中的情感特征差异,导致情感识别在复杂课堂环境中的鲁棒性不足。
鉴于上述分析,现有技术存在的急需解决的技术问题为:现有的多模态情感识别方法大多采用静态融合策略,无法根据课堂场景的变化灵活调整不同模态的权重,导致在复杂课堂情境下的识别精度下降。
因此,亟需一种基于场景感知的自适应模态选择机制,能够根据课堂情境的实时变化动态调整模态组合权重,以准确捕捉学生在不同场景下的情感状态,从而提升情感识别系统的精度和鲁棒性。
实现思路