本技术公开一种基于大语言模型的古诗词到视频的生成方法及装置,涉及视频生成技术领域。方法包括:构建古诗词知识库;根据大语言模型采用Soft Prompt训练方法,得到训练好的故事学习向量;根据待生成古诗词数据、对应的文本知识、训练好的故事学习向量以及大语言模型,得到待生成古诗词数据对应的故事;根据待生成古诗词数据对应的故事、预设的提示词以及大语言模型,得到待生成古诗词数据对应的剧本;根据剧本、图片知识以及图片生成模型,生成待生成古诗词数据对应的故事图片;根据故事图片以及视频生成模型,生成待生成古诗词数据对应的视频。采用本发明,可以解决古诗词视频数据集匮乏的问题,提升了古诗词视频的生成质量。
背景技术
中国传统文化博大精深,古诗词作为其精髓,承载着丰富的历史信息和深厚的文化底蕴。然而,目前关于古诗的研究主要集中在其翻译、生成图像方面,并不能完全展示古诗的意境,而视频具有丰富的模态表示。
文生视频指的是输入一段自然语言文本然后将其转换为视频内容。现有的视频生成不能进行古诗词的视频的生成,因为古诗词的语义复杂和缺少必要的数据集。
古诗词的翻译任务是指将输入的古诗翻译为其他语言,同时需要翻译后的内容符合古诗的意境。古诗“两个黄鹂鸣翠柳,一行白鹭上青天。窗含西岭千秋雪,门泊东吴万里船。”后的翻译内容:“Two golden orioles sing amid the willows green; A flock ofwhite egrets fly into the blue sky. My window frames the snow-crowned westernmountain scene; My door off says to eastward going ships “Goodbye!”,要求翻译后的内容符合中文含义,且符合意境。Cao等人提出了一个TongGu的大语言模型,专门用于古文中文理解(Classical Chinese Understanding, CCU)任务,研究者构建了一个两阶段指令调整数据集 ACCN-INS,为了减少知识密集型任务中 LLMs 生成的错误信息(hallucinations),研究者提出了一种基于知识增强的 CCU-RAG 方法,这种方法通过检索增强生成技术,显著提高了模型在知识密集型任务中的性能。Chen等人提出了使用检索增强的方法,通过添加历史背景信息,作者介绍,诗歌类型等内容,来增强古诗的翻译,取得了不少的提升。古诗词图片生成主要是输入古诗的内容,然后生成一张符合古诗的图片。Dan等人提出了一个新的任务,如何艺术化地将中国古典诗词可视化生成绘画作品,手动收集了3,648对丰子恺绘画作品的标题-绘画配对和从网络上收集了89,204对传统中国绘画风格的诗词-绘画配对,训练了两种代表性的文本到图像生成模型——AttnGAN和MirrorGAN,实现了将中国古典诗词转化为具有特定艺术风格的绘画作品Jiang提出了一个名为"Poetry2Image"的迭代修正框架,旨在解决从中国古典诗歌生成图像时文本到图像生成模型常见的关键元素丢失或语义混淆问题,通过引入一个外部数据集,让大预言模型检测出生成图片上的元素和古诗语义的区别,迭代的去完成图片的生成。
现有的古诗词的任务:古诗词的翻译和图片生成,都不能充分反映古诗的意境;而针对于现有的文生视频模型来说,现有的视频生成模型大多是通过训练得到的端到端的模型,而古诗词视频缺少必要的训练的数据集,不能进行端到端的训练。古诗的语言往往简练而富有层次感,包含大量的意象、隐喻和情感,这些抽象的概念和深层的文化内涵对于现有的模型来说难以完全理解和处理。古诗背后蕴含着丰富的历史和文化背景,生成符合古诗意境的视频需要模型对这些知识有深入的理解。现有模型通常依赖于大规模训练数据,而这些数据可能未能充分涵盖古诗相关的文化知识,导致生成内容缺乏文化真实性,使得生成的古诗词视频质量较低。
实现思路