文本重复度检测技术：方法、设备与存储介质

123技术园

首页 / 技术内容

2025-02-12 13:21

No.1339225034136494080

技术概要

PDF全文

本技术属于数字数据处理技术领域，专注于一种基于文本重复度的文本处理技术。该技术包括一种方法、相应的设备以及用于存储相关数据的介质。该方法的核心步骤是获取第i类待处理文本样本a，进而进行重复度分析和处理。

背景技术

在对某一标签对应的文本集合进行采样以进行语义分析模型训练时，可能会出现以下问题：该标签对应的文本集合中文本之间的重复度较高，如果通过随机采样的方式从该标签对应的文本集合中采样，可能会出现采样得到的文本之间的相似性较大的情况，影响基于采样得到的文本进行训练的语义分析模型对该标签的推理能力。现有技术中已经公开了基于文本相似度对文本进行聚类的方法，例如公开号为CN16401565A的中国专利申请公开了一种文本聚类模型的训练方法及基于此的文本聚类方法，该专利基于预训练的BERT模型得到了一个语义分析能力更强的文本聚类模型，基于该文本聚类模型就可以实现对待聚类文本的聚类。虽然对某一标签对应的文本集合进行聚类的方法有利于提高得到的采样文本之间的文本差异性，但是，通过对某一标签对应的文本集合进行聚类的方法获取采样文本的效率低于通过随机采样的方法获取采样文本的效率，如何兼顾采样得到的文本之间的差异性和获取采样文本的效率，是亟待解决的问题。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

于伟靳雯王全修石江枫赵洲洋

技术所属：北京睿企信息科技有限公司上海清月人工智能科技有限公司日照睿安信息科技有限公司南通睿企科技有限公司.

相关技术

电脑主机的温度控制方法、系统、装置及储存介质  电脑主机的温度控制方法、系统、装置及储存介质 
 本发明涉及电脑主机技术领域，公开了一种电脑主机的温度控制方法、系统、装置及储存介质，方法包括获取电脑主机的初始温度、功率参数、编号和散热风扇的初始转速；对初始温度和初始转速进行预处理得到标准化数据，并构建散热效果预测模型；根据初始参数和预设的初始策略数据库，得到初始散热调控策略集；通过中间评估矩阵和关联特征分析，筛选出进阶散热调控策略集；基于散热效果预测模型对进阶散热调控策略集中的策略进行温度预测，得到最优散热调控策略；对最优散热调控策略进行误差更新，得到目标散热调控策略；根据目标散热调控策略调整初始转速，实现温度控制。本发明提供了自动化的电脑主机温度控制方案，提升了用户体验和系统性能。
用于SaaS软件的数据库复制方法及系统  用于SaaS软件的数据库复制方法及系统 
 本申请涉及计算机技术领域，公开了一种用于SaaS软件的数据库复制方法及系统，方法包括:连接目标对象使用的SaaS软件的源数据库，读取源数据库中每个数据表的每条数据；根据预先制定的主外键生成策略，对每条数据进行主键替换和外键更新，得到多个待复制数据表；主外键生成策略用于在数据库复制过程中自动生成每条数据的新主键对每条数据的旧主键进行主键替换以及使用新主键更新每条数据的外键；检查每个待复制数据表的所有主键是否唯一；在每个待复制数据表的所有主键全部唯一时，将每个待复制数据表复制到目标数据库。本申请通过主键替换和外键更新，可确保数据在多个表之间的一致性，确保在数据迁移或备份过程中数据表的完整性和准确性得到保持。
一种基于ITSM平台的任务调度方法与系统  一种基于ITSM平台的任务调度方法与系统 
 一种基于ITSM平台的任务调度方法，包括:获取ITSM平台的用户行为；将ITSM平台操作流程的各项操作划分为最基本的子操作项，基于所述子操作项构建个性化运维方法知识库；按第一预设规则对所述个性化运维方法知识库的子操作项独立性程度进行判别；按第二预设规则对所述个性化运维方法知识库的子操作项集中值进行计算；基于所述用户行为，对用户个性化操作进行预测；基于所述子操作项独立性和集中值，结合预测的用户个性化操作，对ITSM平台的任务进行调度。本发明通过对各用户操作行为的分析，以及对各项操作的分解，有效合并较短时间段内的相同资源，避免相同操作反复执行，提高平台任务的执行效率。
基于视觉文本联合建模的共指消解、词义消歧方法及系统  基于视觉文本联合建模的共指消解、词义消歧方法及系统 
 本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统，基于文本增强特征和视频增强特征，使用跨注意力特征网络进行特征调整，得到调整后特征，使用分布相似度度量对调整后特征进行协调，对协调后的特征进行共指消解预测，得到输入文本对应的共指消解结果；本发明通过跨模态注意力机制，将文本特征和视觉特征融合，生成准确的联合表示，捕捉文本与视频内容之间的深层语义关系，从而构建了高效的词义消歧模型，克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
一种基于数字孪生的设备故障检测方法及系统  一种基于数字孪生的设备故障检测方法及系统 
 本发明公开了一种基于数字孪生的设备故障检测方法及系统，属于数据分析技术领域，其具体包括:采集并预处理逆变器的多源异构运行数据，利用预先构建的数字孪生模型进行实时数据同步与模拟，通过自适应算法动态调整模拟偏差；借助深度学习算法，自动识别故障模式并预测逆变器故障信息；基于预测结果，采用预测性维护算法制定并模拟维护计划，确保维护措施的有效性；在故障即将发生时，系统及时预警并自动生成应对方案，同时通过可视化界面展示故障预测、维护模拟及应对结果，提高了数据质量和可靠性。
一种自动化信息安全渗透测试平台  一种自动化信息安全渗透测试平台 
 本发明公开了一种自动化信息安全渗透测试平台，涉及信息安全技术领域，通过资产发现模块结合主动扫描和被动监控技术自动识别网络中的资产，并进行分类和排序；漏洞扫描模块通过集成多个工具对这些资产进行漏洞扫描，基于安全基线评估系统配置的安全性；漏洞利用模块在安全沙箱中模拟漏洞攻击行为，评估其对系统的干扰；综合分析模块根据系统配置和漏洞影响，预测并划分系统的安全状态，动态调整测试策略；当系统处于低安全状态时，自动化测试模块触发全面渗透测试并进行预警，大幅提高了渗透测试的效率与准确性，能够快速响应新型攻击手段，及时发现并修复潜在的安全漏洞。
一种基于视觉算法的无人机回收方法、装置、设备及介质  一种基于视觉算法的无人机回收方法、装置、设备及介质 
 本发明属于复杂场景下无人机回收技术领域，具体公开了一种基于视觉算法的无人机回收方法、装置、设备及介质。方法包括:获取无人机飞行时的实时坐标以及对应的地面降落点坐标；当实时坐标与地面降落点坐标的距离在预设范围内时，确定无人机与地面降落点的相对位置；基于相对位置，从地面降落点向上对无人机所在位置区域进行实时拍摄，得到视频图像数据；从视频图像数据中识别出无人机，并对无人机进行定位；持续跟踪无人机，并更新无人机的飞行轨迹；依据无人机的飞行轨迹，确定无人机的下降梯度；基于下降梯度和地面降落点坐标，采用路径规划算法规划无人机的最优降落航线，更适合在复杂环境中进行无人机回收。
一种基于边缘智控的能源设备数据监测方法及系统  一种基于边缘智控的能源设备数据监测方法及系统 
 本申请涉及数据监测的技术领域，尤其涉及一种基于边缘智控的能源设备数据监测方法及系统，该方法包括:获取设备构造信息、实时应用数据以及实时环境信息，对实时应用数据进行数据格式转换，得到应用转码数据，采集不同能源设备的参数变化数据，构建不同能源设备的设备检测模型，判断是否存在至少一个能源设备应用异常，若存在至少一个能源设备应用异常，则基于设备检测模型以及实时环境信息对至少一个能源设备进行异常分析，得到设备异常集合以及与设备异常集合中每个设备异常所对应的概率值，将设备异常集合以及概率值按照结构位置与设备检测模型进行绑定标记。本申请提高了不同能源设备的生产质控效率。
一种宏观尺度不可移动文物地震灾害风险图构建方法及系统  一种宏观尺度不可移动文物地震灾害风险图构建方法及系统 
 本发明公开了一种宏观尺度不可移动文物地震灾害风险图构建方法及系统，本方法包括以下步骤:S1、采集地震和不可移动文物的相关数据，对采集的数据进行地震危险性分析和文物脆弱性分析。S2、结合不可移动文物历史灾害对不同脆弱性的影响构建风险评估矩阵。S3、输入不可移动文物作为评估对象，根据风险评估矩阵输出结果和预设的风险图参数，输出宏观尺度不可移动文物地震灾害风险图。本申请与传统技术相比，能够针对自然灾害对某种宏观事物造成的风险进行评估，可以宏观地表达不可移动文物在不同地域空间面临的地震灾害风险。
基于数据分析的实物仿真系统用数据恢复方法  基于数据分析的实物仿真系统用数据恢复方法 
 本发明涉及数据处理技术领域，具体涉及基于数据分析的实物仿真系统用数据恢复方法，包括:获取实物仿真系统在多个维度的数据序列与待恢复的数据对应的采集时间；得到两个不同时间段下两个不同维度的更新数据段；获取两个不同时间段下的相同时间段内不同维度的更新数据段的累计距离矩阵与最佳匹配路径的链码，得到每一维度与其他维度的相关性、每一维度的关联维度；得到每一维度的数据与关联维度的数据的函数关系；结合每一维度与其关联维度的相关性，得到每一维度的每一待恢复的数据的数值。本发明旨在解决对发生故障的实物仿真系统的数据进行恢复时，部分数据无法恢复的问题。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工