文本重复度检测技术:方法、设备与存储介质
2025-02-12 13:21
No.1339225034136494080
技术概要
PDF全文
本技术属于数字数据处理技术领域,专注于一种基于文本重复度的文本处理技术。该技术包括一种方法、相应的设备以及用于存储相关数据的介质。该方法的核心步骤是获取第i类待处理文本样本a,进而进行重复度分析和处理。
背景技术
在对某一标签对应的文本集合进行采样以进行语义分析模型训练时,可能会出现以下问题:该标签对应的文本集合中文本之间的重复度较高,如果通过随机采样的方式从该标签对应的文本集合中采样,可能会出现采样得到的文本之间的相似性较大的情况,影响基于采样得到的文本进行训练的语义分析模型对该标签的推理能力。 现有技术中已经公开了基于文本相似度对文本进行聚类的方法,例如公开号为CN16401565A的中国专利申请公开了一种文本聚类模型的训练方法及基于此的文本聚类方法,该专利基于预训练的BERT模型得到了一个语义分析能力更强的文本聚类模型,基于该文本聚类模型就可以实现对待聚类文本的聚类。虽然对某一标签对应的文本集合进行聚类的方法有利于提高得到的采样文本之间的文本差异性,但是,通过对某一标签对应的文本集合进行聚类的方法获取采样文本的效率低于通过随机采样的方法获取采样文本的效率,如何兼顾采样得到的文本之间的差异性和获取采样文本的效率,是亟待解决的问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
于伟靳雯王全修石江枫赵洲洋
技术所属: 北京睿企信息科技有限公司 上海清月人工智能科技有限公司 日照睿安信息科技有限公司 南通睿企科技有限公司.
相关技术
电脑主机的温度控制方法、系统、装置及储存介质 电脑主机的温度控制方法、系统、装置及储存介质
用于SaaS软件的数据库复制方法及系统 用于SaaS软件的数据库复制方法及系统
一种基于ITSM平台的任务调度方法与系统 一种基于ITSM平台的任务调度方法与系统
基于视觉文本联合建模的共指消解、词义消歧方法及系统 基于视觉文本联合建模的共指消解、词义消歧方法及系统
一种基于数字孪生的设备故障检测方法及系统 一种基于数字孪生的设备故障检测方法及系统
一种自动化信息安全渗透测试平台 一种自动化信息安全渗透测试平台
一种基于视觉算法的无人机回收方法、装置、设备及介质 一种基于视觉算法的无人机回收方法、装置、设备及介质
一种基于边缘智控的能源设备数据监测方法及系统 一种基于边缘智控的能源设备数据监测方法及系统
一种宏观尺度不可移动文物地震灾害风险图构建方法及系统 一种宏观尺度不可移动文物地震灾害风险图构建方法及系统
基于数据分析的实物仿真系统用数据恢复方法 基于数据分析的实物仿真系统用数据恢复方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利