本技术涉及一种文本主题分析技术、系统、设备及存储方案,该技术包括:确定多个分析主题及其结果标签范围;收集包含多个样本文本的训练数据。
背景技术
随着移动互联网与信息技术的飞速发展,数据量也在飞速递增。海量数据亟需进行处理和分析,尤其是文本类型的数据,其中包含有巨大信息量,政府、企业与个人对于智能化文本主题分析的需求日益增长。因此自然语言处理技术得以进一步发展。
现有技术中,在自然语言处理研究领域中应用较广泛的语言模型包括:基于循环神经网络(Recurrent neural network,RNN)的高级词向量(Elmo)和基于Transformer的GPT(Generative Pre-Training)模型和语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)。虽然这些语言模型作为文本挖掘方法,能够有效提取文本特征,发现文本数据中潜在语义主题,但是,仅能够对输入的文本内容进行主题确认,无法按需进行分析,灵活性较差。
实现思路