本技术公开了一种基于智能交互的法律文本生成系统及其方法,属于文本分析技术领域。本发明根据历史法律文本的应用数据生成法律标签对法律文本进行标记;查找历史中法律文本中的关键词并剔除法律文本中的停用词,将提取的关键词和法律标签转化为向量数据,计算每种关键词和法律标签的关联度;计算得到关键词和法律标签的关联度阈值;利用计算的关联度阈值对每种关键词和法律标签的关联度进行优化,去除每种标签中关联度低的关键词;将筛选后的关键词利用大语言模型进行训练,生成每种标签的对应的法律文本模版;根据用户需求匹配数据库中法律文本的标签,利用标签的模版自动生成用户需要的法律文本。
背景技术
随着科学技术的飞速发展与进步,人工智能技术已经越发成熟,逐渐实现了智能问答、人机互动等等功能;而在早期的文本生成系统使用预定义的规则和模板来生成文本。这些方法依赖于专家手工编写的规则,具有高度的可控性,但缺乏灵活性和生成多样性。随着计算能力的提升,统计方法开始应用于语言建模。n-gram模型通过统计词语序列的出现频率来生成文本,较规则方法有更好的灵活性。随着现在计算机编程语言和算法的飞速发展,对于文本生成的算法也层出不穷,例如:朴素贝叶斯、支持向量机、隐马尔可夫模型等;其中随着数据量的爆炸式增长和计算能力的提升,深度学习技术得到了迅猛发展,从而推动了大语言模型领域的进步,而在对用户需要的法律文本进行自动生成时,算法会大量对历史法律文本的字词进行大量的计算分析,但是随着分析字词数据的增大,其中包含的未取出的关联度低、停用词等也更多,使系统生成的法律文本和用户要求的存在一定误差,和用户要求的主题不够贴合,大大降低了用户的体验感,因此如何使生成的法律文本和主题更加贴合至关重要。
实现思路