本技术提供了一种基于模型的音视频分析的新闻事件识别系统,包括音视频采集、音频特征提取、视频特征提取、特征融合、事件识别模型和结果输出模块。系统通过采集新闻音视频数据,提取音频和视频特征,融合形成综合特征向量,采用SVM算法构建模型进行分类识别,并输出结果。本发明可以提高新闻事件分析的自动化和准确性。
背景技术
现有的新闻事件识别系统主要依赖于自然语言处理和机器学习技术,包括深度学习、无监督聚类等方法。这些技术被用于处理原始新闻文本,进行句法分析和语义角色识别,提取关键信息,并将其转换为向量表示。随后,通过降维和聚类结合人工标注形成结构化数据,以构建新闻事件数据库。
公开号为CN112989841B的公开文件中公开了一种用于突发事件新闻识别与分类的半监督学习方法,包括以下步骤:抓取微博网站内容作为初始新闻数据集,通过人工标注得到标注数据集Dl;对未标注样本进行前置过滤操作,采用数据增强方法得到带扰动的未标注数据集;利用所述标注数据集Dl对基于BERT的多分类器模型进行监督学习、并最小化经验风险函数,利用基于BERT的多分类器模型对所述预过滤后的数据集和带扰动的未标注数据集进行预测,获得半监督学习训练出的基于BERT的多分类器模型实现突发事件新闻的识别和分类任务。本发明能够克服标注数据不足的情况下深度学习分类器过拟合的问题,提高对中文突发事件新闻识别和分类的准确率。
在实现本发明实施例过程中,发明人发现现有技术中至少存在如下问题或缺陷:现有技术大多用于对文本类新闻进行分析,而随着人工智能与电子说书等智能化技术的发展,人们通过音频与视频的形式获取新闻信息越来越普遍,同时,尽管现有的系统能够处理和分析新闻事件,但它们在自动化和准确性方面仍有待提高,尤其是在实时处理大量新闻数据和准确识别事件类型方面。
实现思路