双融合机制：频域注意力与自注意力池化在整夜鼾声检测中的应用

123技术园

首页 / 技术内容

2025-02-08 18:24

No.1337851631190155264

技术概要

PDF全文

本技术介绍了一种结合频域注意力和自注意力池化的整夜鼾声检测技术，旨在提高声音事件检测的准确性。该方法涵盖了基于频域自注意力子模块的波形特征提取模块设计，通过双融合机制增强特征表示，以实现更精确的鼾声识别。

背景技术

合理的睡眠时间对人体的健康状况至关重要，而在当今社会下，越来越多人由于睡眠质量不好导致记忆力下降从而降低工作和学习效率，甚至影响人们的正常生活。其中导致睡眠质量不好的一大元凶就是呼吸暂停综合征(OSAHS)。据《柳叶刀·呼吸内科》显示，截至2019年全球睡眠呼吸暂停患者超过十亿，并且随着生活方式的改变，患病率逐年升高，成年男性发病率从80年代初的3.3％上升至38％。OSAHS是指睡眠期间鼻腔呼吸气流直接消失或者显著减少(比基本水平降低90％至以上)，且持续10秒至以上。OSAHS的症状包括睡眠时气短、喘息、不均匀打鼾、身体抽动、呼吸停止，甚至休克。OSAHS严重影响了人们的生活质量，不仅可能导致疲劳、抑郁、记忆障碍和脾气暴躁等问题，而且也成为了道路交通事故、工伤、猝死的主要原因。由于长期慢性间歇性低氧，OSAHS还会引发一系列包括高血压、冠心病、脑卒中、糖尿病在内的严重心脑血管疾病和代谢疾病，产生一系列社会经济问题。然而，大多数OSA患者直到病情变得严重时才意识到自己的病情，因此错过了早期治疗的机会。在这种情况下，OSAHS的早期诊断和预警是一个值得关注的问题。目前对整夜鼾声识别的方法主要有两种，一是采用可穿戴智能系统来采集佩戴者睡眠过程中的翻转信息，二是通过红外视频监测对被监测者睡眠体位变化进行监控。两种主要方法都存在一定的缺点，前者可穿戴设备会影响患者的睡眠状态，给患者带来不适感，还容易出现电极脱落的现象，后者会侵犯患者隐私。因此，通过非接触式睡眠声音检测系统对打鼾患者整夜睡眠声音数据进行采集，通过对鼾声的特征分析进行检测与筛查等，采用数理统计、机器学习、模式识别等多种方法，实现对打鼾患者整夜睡眠体位的分类研究。这一方法既可以保证患者的睡眠状态稳定，又可以保证患者的隐私。常用的鼾声检测方法主要分为单阶段法和多阶段法两个类别。这两类方法的具体区别在于前者需要经过多个阶段的处理与分析才能达到实现鼾声检测的目的，而后者可以实现端到端的检测，一步到位。多阶段的方法把鼾声检测任务分为多个过程，主要可以分为三个阶段：有声段检测、特征提取、鼾声检测。这种方法虽然可以实现鼾声检测，但是其过程复杂，难以实现广泛的应用。自进入21世纪以来，鼾声检测涌现了一大批先进的方法。传统而经典的机器学习算法，如：K-近邻(KNN)、支持向量机(SVM)、高斯混合模型(GMM)、线性回归、逻辑斯蒂回归等分类算法均有应用，除了单独的分类器之外，多个分类器的集成学习分类器Adaboost也被应用在鼾声检测的任务中。近来，由于深度学习技术的迅速发展大大促进了人工智能领域研究的进展，许多深度学习技术也被用于鼾声检测中。循环神经网络、人工神经网络在鼾声检测中被广泛应用，但是在图像领域大放异彩的卷积神经网络却为在鼾声检测领域中被广泛采用。因此，如何将基于卷积神经网络的目标检测技术应用于鼾声检测领域中，仍是当下一项具有挑战性、也极富意义的任务。目前OSAHS自动分类研究仍然存在数据标注量大、专家标注工作繁重、现有的标注数据少等问题，研究仍然具有很大的挑战性。本发明设计了基于频域自注意力子模块的波形特征提取模块，增强了波形数据中对检测和分类有效的频段；构建基于可变形卷积残差子模块的梅尔倒谱特征提取模块，提高编码器模块对于复杂音频模式特征的提取能力；并设计基于自注意力池化双融合模块来实现音频特征与梅尔倒谱图特征的双向融合；最后构造了基于多层感知机模块的解码器实现分类与鼾声时间位置回归，构成整个检测网络模型FDSNet。该模型具备更好提取鼾声特性功能，可快速、准确检测到证整夜睡眠期间的鼾声片段。一方面可以有效缓解医院现有的PSG检测资源紧张等问题，减少医务工作者的工作量以及缓解工作压力协助诊断。另一方面，可以将单纯打鼾以及轻中度OSAHS患者的诊断筛查推广至社区乃至家庭，对于打鼾患者群体的OSAHS预防、筛查以及术后监测等具有重要意义。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

田巳睿张炎李洪涛

技术所属：南京理工大学

相关技术

神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
本申请实施例提供一种神经网络的训练方法、语音降噪方法、计算机程序产品、设备及存储介质。在训练神经网络时，可以对神经网络的网络参数进行位宽截断处理，利用位宽截断处理后的网络参数确定的降噪参数的准确度，以及位宽截断处理对网络参数本身的影响作为神经网络训练过程中的约束，从而可以最小化位宽截断处理对数据精度的影响，训练得到轻量级且性能较好的语音降噪神经网络，使得该轻量级的语音降噪神经网络可以部署到低性能的语音采集设备中。
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
本申请公开了一种跨语言文本中实体语义识别处理方法、系统及存储介质，根据不同单词和相同单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表。将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别。本申请根据用户停顿情况进行语义的检测相较于普通按照前一个单词进行检测，能够更加准确地进行语义识别，通过语句表进行多种语言的语义识别，大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别。即，本申请的方案可以把包含不同语言类别的语句翻译成预设的语言类别的语句，且翻译准确性高。
一种高效文字转语音的方法及系统  一种高效文字转语音的方法及系统 
 本申请提供一种高效文字转语音的方法及系统。其中，接收用户输入的文本信息，识别并分析所述文本信息中的情感色彩和语气特征；根据所述情感色彩和所述语气特征，从预先构建的情感语音库中选择相匹配的基础语音片段的数据集；利用动态时间规整算法调整所述基础语音片段的时间轴，使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性；采用频谱融合技术，将调整后的时间轴与所述文本信息的音素序列进行融合，生成语音输出，其中，所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性，从而大幅提升了用户体验。
一种用于智慧呼叫的语义识别方法及系统  一种用于智慧呼叫的语义识别方法及系统 
 本发明涉及语音识别技术领域，具体涉及一种用于智慧呼叫的语义识别方法及系统。本发明首先获取用户呼叫的每句呼叫语句的语音文本、回应时间和答案文本；进一步根据目标用户呼叫中语音文本与每类答案文本的相似特征，获取目标用户呼叫与每类答案文本的匹配系数，确定目标用户呼叫对应的答案文本类别；进一步根据相同答案文本类别相邻的用户呼叫中语音文本的相似特征，目标用户呼叫中呼叫语句与对应答案文本的相似特征和回应时间，以及相邻呼叫语句的相似特征，结合匹配系数，从多个方面准确评估系统对于目标用户呼叫的修正识别效率，使得系统能够及时发现识别效率的瓶颈，从而针对性地对系统进行优化，提升系统的智能化水平。
基于分布式光纤声波传感系统的语音增强方法  基于分布式光纤声波传感系统的语音增强方法 
 本申请公开了一种基于分布式光纤声波传感系统的语音增强方法，涉及语音增强技术领域。本申请中构建的语音增强网络包括编码器模块，编码器模块的输出端依次连接第一个Reshape层、第一个TCNS模块、第二个TCNS模块、第一个GRU模块、第二个GRU模块、第二个Reshape层以及Add层，编码器模块的输出端还与Add层的输入端连接，Add层的输出端连接解码器模块，编码器还与解码器相连接；本申请中解码器能够获得预测的增强的复数频谱，本申请所述语音增强方法得到的增强后的时域语音信号的时域波形在拟合度和相似性上会显示出更少的噪音成分，而且也具有更多的与原始语音信号相同的语音特征。
音频处理方法、装置、电子设备及介质 音频处理方法、装置、电子设备及介质
本申请实施例提供了一种音频处理方法、装置、电子设备及介质，涉及云技术及人工智能技术领域。该方法包括:获取待处理音频；确定所述待处理音频的至少一个初始分段时间点；确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；根据各所述目标分段时间点，得到所述待处理音频的各音频片段；对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。
一种定向拾音方法、装置、电子设备和存储介质 一种定向拾音方法、装置、电子设备和存储介质
本申请涉及一种定向拾音方法、装置、电子设备和存储介质，该方法包括:获取麦克风阵列；根据麦克风阵列确定麦克风接收信号、目标方向的延迟求和波束形成器权值；根据麦克风接收信号、目标方向的延迟求和波束形成器权值确定近端信号和远端信号；将近端信号和远端信号输入自适应对消滤波器输出自适应滤波器输出信号；VAD检测自适应滤波器输出信号，若检测结果为检测到语音，则进行缓存得到缓存语音信号；计算缓存语音信号的整体波达方向；判断缓存语音信号的整体波达方向是否在拾音区内，根据判断结果对缓存语音信号进行处理。本申请引入自适应滤波器实现对干扰噪声的强力抑制，结合整体的波达方向，判断识别结果是否有效，使误识别得到大幅抑制。
语音识别系统的重打分方法、装置、电子设备和存储介质 语音识别系统的重打分方法、装置、电子设备和存储介质
本申请涉及一种语音识别系统的重打分方法、装置、电子设备和存储介质，该方法包括:判断待识别语音对应的文本是长文本还是短文本；若判断结果为待识别语音是长文本，对长文本进行断句得到多个短文本；分别确定多个短文本中每个短文本的重打分结果；将每个短文本的重打分结果进行求和得到长文本的重打分结果。本申请通过在重打分阶段的即时解码过程中，来判断待识别语音对应的文本中的当前字是否是一个句子的结束，若当前字是一个句子的结束对长文本进行断句得到多个短文本，分别确定每个短文本重打分结果然后短文本重打分结果确定长文本的重打分结果，从而能够拿到更准确的语言模型打分，提高重打分的准确性，进而提升整个识别系统的识别率。
一种语音辅助阅卷的声音智能识别方法及系统 一种语音辅助阅卷的声音智能识别方法及系统
本申请涉及语音处理技术领域，具体涉及一种语音辅助阅卷的声音智能识别方法及系统，该方法包括:采集语音辅助阅卷中的语音信号；获得语音信号的基音周期谱图的所有连通域；确定基音周期谱图中每个连通域对应的基音周期轨迹的虚假程度，以获取语音信号的浊音段语音信号集合和非浊音段语音信号集合；确定非浊音段语音信号集合内每帧语音信号的清音疑似度，以获取语音信号的清音段语音信号集合；确定双门限端点检测算法的短时能量高门限值、短时能量低门限值和短时平均过零率门限值，确定语音识别结果。本申请可提高对语音辅助阅卷中语音识别的准确性。
基于多子带生成策略的语音合成系统、方法、介质及设备  基于多子带生成策略的语音合成系统、方法、介质及设备 
 本发明实施例公开了一种基于多子带生成策略的语音合成系统、方法、介质及设备，系统包括:预处理模块，用于将文本转化为音素序列，将对应的语音通过短时傅里叶变换转化为线性频谱；后验编码器模块，用于将线性频谱转化为后验分布，根据后验分布中的均值和标准差进行采样得到潜在变量；转换层模块，用于将潜在变量转换为采样数据；先验编码器模块，用于将音素序列提取为深度特征，将深度特征映射为先验分布；发音时长推测模块，用于将先验分布与采样数据对齐，获取对齐矩阵，根据深度特征和对齐矩阵通过编码获取发音时长分布；解码器模块，用于将先验分布依据发音时长分布采样为多子带信号并合成为语音波形信号，实现了文本到语音的直接映射。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工