本技术介绍了一种应用于人工智能与语音识别领域的Transformer自动语音识别(ASR)模型性能评估方法,该方法基于图论理论。首先,获取Transformer ASR模型及其对应的音频数据;接着,将音频数据输入模型,通过前向传播得到各注意力头的权重矩阵,并提取模型输出的文本。通过对权重矩阵求平均值,得到人工神经活动,并利用皮尔逊相关系数计算相关性,构建功能连接矩阵。进一步,计算该矩阵的图论参数,并评估输出文本的单词错误率。最后,结合图论参数和错误率,对模型性能进行综合分析,为Transformer ASR模型的性能评估提供科学依据。
背景技术
Transformer是一种深度学习模型架构,由瓦斯瓦尼等人在2017年提出,最初用于自然语言处理(NLP)任务,尤其是机器翻译。由于其卓越的性能和高度可扩展的设计,Transformer迅速成为许多自然语言处理任务的主流模型架构,并被广泛应用于语音识别领域,然而对于模型内部多头注意力机制(Multi-head Attention)中的注意力头之间的相互作用,尤其是它们如何影响模型性能,仍然缺乏深入的理解。现有研究主要集中于通过改进模型的结构提升自动语音识别(ASR)模型的性能,而对模型内部注意力头之间关系以及对模型性能影响的系统性研究较少。
实现思路