基于粒球计算的文本噪声标签优化技术
2025-02-10 08:05
No.1338420603715330048
技术概要
PDF全文
本技术方案专注于自然语言处理,旨在通过粒球计算对文本噪声标签进行修正。该技术通过使用人工标注的清洁文本数据集对Bert模型进行训练,以获得一个经过优化的Bert模型,进而提高文本噪声标签的修正效率和准确性。
背景技术
随着计算能力的不断提高,大规模数据集的出现使深度神经网络在各个领域取得了巨大成功。众所周知,深度神经网络的性能在很大程度上依赖于庞大的高质量标注数据集。然而,由于人工标注的疏忽或自动标注的不准确,标注过程不可避免地会引入误差。标签噪声会严重影响深度神经网络的性能,因为模型会学习到不正确的关联和模式。噪声样本如果达到一定比例,最终对模型的影响是毁灭性的。标签修正是一种自然语言处理技术,是一种将数据集中样本错误的标签修正为正确的标签的方法。噪声标签修正作为数据噪声处理的一项子任务其重要性不言而喻。基于粒球计算的标签修正应约而生。 目前处理噪声标签的主流方法大致可分为两大类:数据级方法和模型级方法。(1)数据级方法主要涉及数据清理和预处理。这些方法旨在通过使用人工审核、自动检测或样本选择和重新加权等技术来清理和纠正噪声标签,从而减轻噪声标签对模型训练的影响。然而,这些方法通常依赖于大量的人工干预,既耗时又容易产生主观性。(2)模型级方法侧重于在训练过程中增强模型的鲁棒性。这些方法包括设计稳健的损失函数、执行噪声建模或采用集合学习和半监督学习技术来减轻噪声标签的负面影响。然而,这些方法通常涉及复杂的算法设计和大量的计算资源,在实际应用中可能难以实现,或需要对模型进行重大调整。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
赵健棚  王泽丽  夏书银
技术所属: 重庆邮电大学
相关技术
一种应用于企业精益管理系统的大数据分析方法 一种应用于企业精益管理系统的大数据分析方法
用于自动求解数学题目的相关方法和装置 用于自动求解数学题目的相关方法和装置
一种面向连续干扰的体系韧性评估方法及装置 一种面向连续干扰的体系韧性评估方法及装置
一种大型风电机组气动性能现场历史演化行为分析方法 一种大型风电机组气动性能现场历史演化行为分析方法
一种热管式复合抛物槽式集热系统跟踪策略计算方法 一种热管式复合抛物槽式集热系统跟踪策略计算方法
一种基于仿生算法的基学习器动态组合方法、装置和介质 一种基于仿生算法的基学习器动态组合方法、装置和介质
一种电池极片双辊压设备状态预测系统及实现方法 一种电池极片双辊压设备状态预测系统及实现方法
算力网络环境下基于强化学习的多维资源的任务调度方法 算力网络环境下基于强化学习的多维资源的任务调度方法
基于地理时空加权回归的水源涵养影响因素分析方法 基于地理时空加权回归的水源涵养影响因素分析方法
一种综合能源服务电力交易方法及系统 一种综合能源服务电力交易方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利