深度学习技术在录播教室语音增强中的应用
2025-01-19 11:26
No.1330499860612521984
技术概要
PDF全文
本技术介绍了一种利用深度学习技术对录播教室采集的语音信号进行增强的方法,旨在提升音频的清晰度和可懂度。该方法在传统的深度复卷积神经网络框架下,提出了一种结合时频长短时记忆网络(F-T-LSTM)和混合注意力机制的优化网络结构。该结构通过F-T-LSTM更精确地捕捉语音的时域和频域特性,并结合通道注意力与空间注意力机制,实现对复数域语音特征的全面提取。这种设计有效集中计算资源于语谱图中信息量最大的区域,显著提升了语音增强网络的性能,并且展现出强大的泛化能力。
背景技术
在日常生活中,人们通过语音来传递信息,语音是一种广泛的交流介质,随着人工智能的发展,语音交流的方式不仅限于人与人之间还存在于人与机器设备之间,机器听觉系统的开发和应用成为重要的研究方向。在复杂的声学环境中,环境音干扰、室内混响以及其他说话人声音的干扰都会影响到机器设备采集到的语音音频质量,从而影响语音信号的识别与分析,特别是在实际环境中,噪声信号、混响信号与纯净语音信号难以分离,所以对于智能语音设备改善语音信号的质量是长久以来的研究目标。 如今,随着通信技术的发展以及信息化教学在校园教学过程中的应用普及,人们对高质量的信息化教学课堂提出了新的标准和新的要求。特别是在《教育信息化2.0行动计划》大背景下,许多高校通过建设校园智慧教室来提升教育信息化水平,其中常态化录播教室打造便成为了重要的信息化建设场景。海量的课堂录播音视频资源不仅可以供教师和学生用于教学活动,同时这些课程资源也将作为学校构建专业、学科体系及知识图谱的宝贵知识素材,但由于各种教室环境因素、硬件设备差异,许多音频视频资源呈现出环境音嘈杂等情况导致录播课程无法满足教师、学生课后回顾复习或者用于智能教学监测等需求。 因此,利用深度学习模型从大量的语音数据中学习到语音信号的特征和模式,将其用于教室内的语音增强任务,从而保证音频资源听感效果更佳,更具备使用价值,实现录播音频最大程度优化,能够听清教师、学生说话内容,实现环境音低的效果,从而达到良好的教学学习体验。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张馨匀  黄智轩  周李  罗大威
技术所属: 桂林电子科技大学
相关技术
一种维纳增益的设计方法 一种维纳增益的设计方法
基于FPGA的深海水声数据压缩方法与装置 基于FPGA的深海水声数据压缩方法与装置
一种自适应感知的一维离散时间信号活动检测方法和系统 一种自适应感知的一维离散时间信号活动检测方法和系统
一种基于多域声学特征融合的说话人识别方法、装置及设备 一种基于多域声学特征融合的说话人识别方法、装置及设备
一种语音转换的信息处理方法和系统 一种语音转换的信息处理方法和系统
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利