本技术涉及语音识别技术领域,公开了一种基于BERT预训练语言模型的语音指令识别方法,该方法包括:接收待识别语音,并通过自动语音识别模型将待识别语音转化为文本序列;微调BERT预训练语言模型,并利用微调后的BERT预训练语言模型对文本序列进行文本分类,得到待识别语音对应的指令类别;利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩,得到序列分类模型;利用序列分类模型对文本序列进行特征提取,得到待识别语音对应的指令类别标签,本发明考虑到音频数据较文本数据更难获取的情况,选用BERT预训练语言模型,提高分类准确性,利用知识蒸馏进行模型压缩,识别到待识别语音指令类别标签,为人机交互提供数据支撑。
背景技术
短语音指令识别广泛应用于生活、办公、军事等领域,其识别准确率越高,越能提高人机交互的便捷性与实用性。语音指令具有短小,重复度高,上下文缺失的特点,传统的端到端的语音指令识别方法以提取音频的语谱特征为主,在面对从未出现但含义相同的指令时缺乏对语义相关性的理解,所以难以得到很好的泛化和普适的应用。
目前,智能移动设备和云计算的迅猛发展极大地推动了人工智能的前进,使其成为科技领域的标志。人工智能已经在我们的日常生活和军事活动中产生了深远的影响。如今,智能机器人、智能家居、增强现实设备、自动驾驶汽车、自动化数字工业、无人物流和智能医疗等已经成为人类生活中不可缺少的部分。语言是人际交流的桥梁,富含的语义信息促进了人们的相互理解和协作。在人工智能领域,人机交互的便捷性是用户体验的关键,而这一切的核心是语言交流。机器人准确执行命令的前提是对命令的充分理解,能够识别出不同音色、不同表达但含义相同的指令并准确执行是语音识别技术的核心。因此,语音识别技术已成为一个关键的研究领域。
短语音指令识别技术是语音识别技术中一个重要的分支,主要关注于从用户提供的短暂语音片段中识别特定的命令或请求。在各个领域,包括移动设备、家居、医疗以及军事等,语音技术都发挥着关键作用。在移动设备领域,基于语音的应用程序,如苹果的Siri、华为的小艺、小米的小爱,以及语音搜索和短信听写功能都已深入到日常生活中,这些都得益于先进的语音识别技术。对于智能家居而言,用户可以通过简单的命令来控制家电,例如“打开空调”或“关闭电视”,小爱音箱等设备已成为许多家庭的标配。在医疗领域,语音控制设备为残疾人和行动不便患者提供了便利,提高了操作效率。在军事应用中,简短的语音控制指令为无人机等设备提供了便捷的操作。
指令识别作为一种音频分类任务,常规的做法是使用单个模型,以音频数据为输入,直接输出相应的类别。这种方法在短语音指令识别的场景下存在一些问题,语音指令用于传达相对确定性的信息,通常具有短小、重复度高、上下文缺失的特点,且数据集规模有限,直接训练单个模型无法获得对音频语义的充分理解,泛化能力较弱。
实现思路