本技术公开了基于深度学习的数字人交互视频业务实时分析方法及系统,涉及人机交互领域;包括:数据采集模块,其负责采集用户与数字人的交互视频数据,包括用户的语音、手势和面部表情的多模态数据;预处理模块,对采集到的视频数据进行预处理,包括去躁、增强、特征提取、针对语音数据进行语音情感分析、针对手势和面部表情数据进行关键帧提取和特征点标注;深度学习分析模块,建立深度学习模型,利用深度学习模型识别用户的多模态数据。本发明通过采集用户的语音、手势、面部表情的多模数据,进行特征处理后进行多模融合,再进行加权处理后识别意图,从而能直接识别用户意图,解决了局限性问题。
背景技术
随着虚拟现实(VR)、增强现实(AR)及全息通信技术的快速发展,数字人作为重要的交互媒介,在影视、游戏、教育、医疗等多个领域得到广泛应用。
经检索,中国专利公开号为CN116248812B的专利,公开了一种基于数字人交互视频的业务办理方法、存储介质及系统,该方法先生成多个固定话术数字人视频和灵活话术数字人视频,然后将灵活话术数字人视频和对应业务办理流程的固定话术数字人视频合并形成数字人交互视频并展示给用户,再根据用户的响应信息选取对应的其他固定话术数字人视频,与灵活话术数字人视频合并形成新的数字人交互视频并展示给用户,不断重复直至达到业务办理预设条件后进行业务办理。
上述专利存在以下不足,其利用用户给出的响应还需要用户韧性操作,无法基于用于的多模数据分析用户意图,所以还存在一定的局限性。
为此,本发明提出基于深度学习的数字人交互视频业务实时分析方法及系统
实现思路