本技术介绍了一种创新的多模态命名实体识别技术,该技术通过多粒度特征增强实现。方法首先对输入数据执行单模态特征提取,随后利用这些特征进行多模态多粒度特征的交互处理,以提高命名实体识别的准确性和效率。
背景技术
社交媒体成为人们分享日常、表达观点的主要途径,发帖量也随之增加。这种图文结合的表现方式使得用户表达更具准确度、趣味性、多元性,更好地反映出用户的需求、情感,同时也为自然语言处理(NLP)提供了大量丰富的原始语料数据。命名实体识别(NER)作为许多信息提取任务的前奏,旨在从原始文本数据中发现多个类别的命名实体,例如人员(PER)、位置(LOC)和组织(ORG)。目前基于文本的NER方法在格式良好的文本上有很好的性能,如新闻报道文本等,借助CNN、LSTM和Transformer学习上下文,通过softmax和CRF用于解码。但是社交媒体文本往往包含非正式、口语化的表达,甚至错别字、拼写错误,同时短文本包含较少的上下文信息,这样的文本内容导致数据稀疏,影响准确性。多模态命名实体识别(MNER)的提出关注到相关图片中的视觉特征,借助视觉信息增强语言特征来获得比NER更好的结果,主要是使用整个图片对每个单词编码,或者是用文本向量与视觉对象特征建立对齐。
尽管如此,多模态命名实体识别依旧重视文本内容,非正式的表达、缺少上下文依旧是需要克服是挑战;另外,全图可能存在大量无关紧要的信息,这对实体提取存在一定的干扰,因此不能只关注到整图的视觉特征而忽略了图像中的对象对于文本中单词的语义对应关系。因此急需一种多模态命名实体识别方法解决上诉问题,并进一步提高多模态命名实体识别在社交媒体帖子上的准确性。
实现思路