本技术介绍了一种结合频域注意力和自注意力池化的整夜鼾声检测技术,旨在提高声音事件检测的准确性。该方法涵盖了基于频域自注意力子模块的波形特征提取模块设计,通过双融合机制增强特征表示,以实现更精确的鼾声识别。
背景技术
合理的睡眠时间对人体的健康状况至关重要,而在当今社会下,越来越多人由于睡眠质量不好导致记忆力下降从而降低工作和学习效率,甚至影响人们的正常生活。其中导致睡眠质量不好的一大元凶就是呼吸暂停综合征(OSAHS)。据《柳叶刀·呼吸内科》显示,截至2019年全球睡眠呼吸暂停患者超过十亿,并且随着生活方式的改变,患病率逐年升高,成年男性发病率从80年代初的3.3%上升至38%。OSAHS是指睡眠期间鼻腔呼吸气流直接消失或者显著减少(比基本水平降低90%至以上),且持续10秒至以上。OSAHS的症状包括睡眠时气短、喘息、不均匀打鼾、身体抽动、呼吸停止,甚至休克。OSAHS严重影响了人们的生活质量,不仅可能导致疲劳、抑郁、记忆障碍和脾气暴躁等问题,而且也成为了道路交通事故、工伤、猝死的主要原因。由于长期慢性间歇性低氧,OSAHS还会引发一系列包括高血压、冠心病、脑卒中、糖尿病在内的严重心脑血管疾病和代谢疾病,产生一系列社会经济问题。然而,大多数OSA患者直到病情变得严重时才意识到自己的病情,因此错过了早期治疗的机会。在这种情况下,OSAHS的早期诊断和预警是一个值得关注的问题。
目前对整夜鼾声识别的方法主要有两种,一是采用可穿戴智能系统来采集佩戴者睡眠过程中的翻转信息,二是通过红外视频监测对被监测者睡眠体位变化进行监控。两种主要方法都存在一定的缺点,前者可穿戴设备会影响患者的睡眠状态,给患者带来不适感,还容易出现电极脱落的现象,后者会侵犯患者隐私。因此,通过非接触式睡眠声音检测系统对打鼾患者整夜睡眠声音数据进行采集,通过对鼾声的特征分析进行检测与筛查等,采用数理统计、机器学习、模式识别等多种方法,实现对打鼾患者整夜睡眠体位的分类研究。这一方法既可以保证患者的睡眠状态稳定,又可以保证患者的隐私。
常用的鼾声检测方法主要分为单阶段法和多阶段法两个类别。这两类方法的具体区别在于前者需要经过多个阶段的处理与分析才能达到实现鼾声检测的目的,而后者可以实现端到端的检测,一步到位。多阶段的方法把鼾声检测任务分为多个过程,主要可以分为三个阶段:有声段检测、特征提取、鼾声检测。这种方法虽然可以实现鼾声检测,但是其过程复杂,难以实现广泛的应用。自进入21世纪以来,鼾声检测涌现了一大批先进的方法。传统而经典的机器学习算法,如:K-近邻(KNN)、支持向量机(SVM)、高斯混合模型(GMM)、线性回归、逻辑斯蒂回归等分类算法均有应用,除了单独的分类器之外,多个分类器的集成学习分类器Adaboost也被应用在鼾声检测的任务中。近来,由于深度学习技术的迅速发展大大促进了人工智能领域研究的进展,许多深度学习技术也被用于鼾声检测中。循环神经网络、人工神经网络在鼾声检测中被广泛应用,但是在图像领域大放异彩的卷积神经网络却为在鼾声检测领域中被广泛采用。因此,如何将基于卷积神经网络的目标检测技术应用于鼾声检测领域中,仍是当下一项具有挑战性、也极富意义的任务。
目前OSAHS自动分类研究仍然存在数据标注量大、专家标注工作繁重、现有的标注数据少等问题,研究仍然具有很大的挑战性。本发明设计了基于频域自注意力子模块的波形特征提取模块,增强了波形数据中对检测和分类有效的频段;构建基于可变形卷积残差子模块的梅尔倒谱特征提取模块,提高编码器模块对于复杂音频模式特征的提取能力;并设计基于自注意力池化双融合模块来实现音频特征与梅尔倒谱图特征的双向融合;最后构造了基于多层感知机模块的解码器实现分类与鼾声时间位置回归,构成整个检测网络模型FDSNet。该模型具备更好提取鼾声特性功能,可快速、准确检测到证整夜睡眠期间的鼾声片段。一方面可以有效缓解医院现有的PSG检测资源紧张等问题,减少医务工作者的工作量以及缓解工作压力协助诊断。另一方面,可以将单纯打鼾以及轻中度OSAHS患者的诊断筛查推广至社区乃至家庭,对于打鼾患者群体的OSAHS预防、筛查以及术后监测等具有重要意义。
实现思路