本技术公开了一种基于变分自编码器的文本分类方法,其包括以下步骤:S1、选定编码器和解码器组成模型;S2、对模型进行预训练;S3、分类器训练;S4、使用训练好的分类器对文本进行分类。步骤S2具体为,先收集一个没有人工标注对的文本数据集,然后通过损失函数对于模型进行训练。通过加入新的增强损失函数,来解决后验坍塌的难题,提高VAE针对文本数据的分类性能。
背景技术
变分自编码器(VAE)是机器学习和大数据分析中一种非常重要的模型,在文本生成、图片生成、自动分类等领域扮演者极其重要的角色。但是在将VAE应用文本分类的任务中时,标准VAE汇面临后验坍塌的问题,从而无法正常工作。
实现思路