本技术属于数字数据处理技术领域,专注于一种基于文本重复度的文本处理技术。该技术包括一种方法、相应的设备以及用于存储相关数据的介质。该方法的核心步骤是获取第i类待处理文本样本a,进而进行重复度分析和处理。
背景技术
在对某一标签对应的文本集合进行采样以进行语义分析模型训练时,可能会出现以下问题:该标签对应的文本集合中文本之间的重复度较高,如果通过随机采样的方式从该标签对应的文本集合中采样,可能会出现采样得到的文本之间的相似性较大的情况,影响基于采样得到的文本进行训练的语义分析模型对该标签的推理能力。
现有技术中已经公开了基于文本相似度对文本进行聚类的方法,例如公开号为CN16401565A的中国专利申请公开了一种文本聚类模型的训练方法及基于此的文本聚类方法,该专利基于预训练的BERT模型得到了一个语义分析能力更强的文本聚类模型,基于该文本聚类模型就可以实现对待聚类文本的聚类。虽然对某一标签对应的文本集合进行聚类的方法有利于提高得到的采样文本之间的文本差异性,但是,通过对某一标签对应的文本集合进行聚类的方法获取采样文本的效率低于通过随机采样的方法获取采样文本的效率,如何兼顾采样得到的文本之间的差异性和获取采样文本的效率,是亟待解决的问题。
实现思路