本技术介绍了一种利用深度学习技术对录播教室采集的语音信号进行增强的方法,旨在提升音频的清晰度和可懂度。该方法在传统的深度复卷积神经网络框架下,提出了一种结合时频长短时记忆网络(F-T-LSTM)和混合注意力机制的优化网络结构。该结构通过F-T-LSTM更精确地捕捉语音的时域和频域特性,并结合通道注意力与空间注意力机制,实现对复数域语音特征的全面提取。这种设计有效集中计算资源于语谱图中信息量最大的区域,显著提升了语音增强网络的性能,并且展现出强大的泛化能力。
背景技术
在日常生活中,人们通过语音来传递信息,语音是一种广泛的交流介质,随着人工智能的发展,语音交流的方式不仅限于人与人之间还存在于人与机器设备之间,机器听觉系统的开发和应用成为重要的研究方向。在复杂的声学环境中,环境音干扰、室内混响以及其他说话人声音的干扰都会影响到机器设备采集到的语音音频质量,从而影响语音信号的识别与分析,特别是在实际环境中,噪声信号、混响信号与纯净语音信号难以分离,所以对于智能语音设备改善语音信号的质量是长久以来的研究目标。
如今,随着通信技术的发展以及信息化教学在校园教学过程中的应用普及,人们对高质量的信息化教学课堂提出了新的标准和新的要求。特别是在《教育信息化2.0行动计划》大背景下,许多高校通过建设校园智慧教室来提升教育信息化水平,其中常态化录播教室打造便成为了重要的信息化建设场景。海量的课堂录播音视频资源不仅可以供教师和学生用于教学活动,同时这些课程资源也将作为学校构建专业、学科体系及知识图谱的宝贵知识素材,但由于各种教室环境因素、硬件设备差异,许多音频视频资源呈现出环境音嘈杂等情况导致录播课程无法满足教师、学生课后回顾复习或者用于智能教学监测等需求。
因此,利用深度学习模型从大量的语音数据中学习到语音信号的特征和模式,将其用于教室内的语音增强任务,从而保证音频资源听感效果更佳,更具备使用价值,实现录播音频最大程度优化,能够听清教师、学生说话内容,实现环境音低的效果,从而达到良好的教学学习体验。
实现思路