本申请公开了一种文本处理方法、装置、计算机设备及存储介质,应用于人工智能技术领域,其中,该方法包括:获取到客户终端发送的参考文本后,对该参考文本进行解析,得到参考文本的词性序列,再通过词向量词典确定参考文本的特征向量;再根据参考文本的词性序列从文本数据库中确定出N个待召回文本;再通过词向量词典确定N个待召回文本的特征向量,并将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合;再根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本,通过该方法,可以提高文本召回的效率和文本召回的准确率。
背景技术
随着大数据时代的快速发展,互联网上涌现出海量文本,包括短篇文本和长篇文章。因此,怎样让用户快速获取到所需求的文本是各个领域的研究热点之一。
目前,文本召回策略通常是通过人工审核得到目标待召回文本。对于这类方法而言,存在两个方面的问题,一方面,人工参与度高,导致处理效率低,另一方面,召回的文本准确率较低。因此,怎样提高文本匹配的准确率和效率成为亟待解决的技术问题。
实现思路