本技术方案专注于自然语言处理,旨在通过粒球计算对文本噪声标签进行修正。该技术通过使用人工标注的清洁文本数据集对Bert模型进行训练,以获得一个经过优化的Bert模型,进而提高文本噪声标签的修正效率和准确性。
背景技术
随着计算能力的不断提高,大规模数据集的出现使深度神经网络在各个领域取得了巨大成功。众所周知,深度神经网络的性能在很大程度上依赖于庞大的高质量标注数据集。然而,由于人工标注的疏忽或自动标注的不准确,标注过程不可避免地会引入误差。标签噪声会严重影响深度神经网络的性能,因为模型会学习到不正确的关联和模式。噪声样本如果达到一定比例,最终对模型的影响是毁灭性的。标签修正是一种自然语言处理技术,是一种将数据集中样本错误的标签修正为正确的标签的方法。噪声标签修正作为数据噪声处理的一项子任务其重要性不言而喻。基于粒球计算的标签修正应约而生。
目前处理噪声标签的主流方法大致可分为两大类:数据级方法和模型级方法。(1)数据级方法主要涉及数据清理和预处理。这些方法旨在通过使用人工审核、自动检测或样本选择和重新加权等技术来清理和纠正噪声标签,从而减轻噪声标签对模型训练的影响。然而,这些方法通常依赖于大量的人工干预,既耗时又容易产生主观性。(2)模型级方法侧重于在训练过程中增强模型的鲁棒性。这些方法包括设计稳健的损失函数、执行噪声建模或采用集合学习和半监督学习技术来减轻噪声标签的负面影响。然而,这些方法通常涉及复杂的算法设计和大量的计算资源,在实际应用中可能难以实现,或需要对模型进行重大调整。
实现思路