本技术涉及一种二维表格数据多模态模型的构建与训练策略。该模型包含表格表征模块,该模块由一系列双向注意力机制模块组成,旨在提升模型对表格数据的理解与处理能力。
背景技术
大语言模型(LLM)在表格任务中的应用越来越广泛,尤其是利用上下文学习。将表格转化为LLM可以理解的序列化信息(通常为markdown、html、格式化string、json或者SQLschema等格式),结合在整体表格任务的上下文信息中,用于各种如代码生成、表格问答、表格理解、单元格提取等常见表格任务中,是目前最常见的研究和应用模式。现有技术通过生成自监督的表格结构理解任务,评估了不同表格格式(如JSON、DFLoader、Markdown等)和八种噪声操作(如列名重命名、行列随机化等)对LLMs在基本结构理解任务(如数据查找和表格转换)中的表现。
然而,由于二维表格数据字段、规模的不确定性和复杂性,在实际使用中,往往存在以下两点不足:1)不同模型、不同任务场景下,表格序列化输入形式,对任务最终性能影响极大,效果难以稳定;2)宽表(指字段数量超过100)及多表场景下,转化为序列化信息后,上下文长度过大,往往需要简化表格信息(如输入截断、行列抽取等),进一步影响了任务的精度和效果。
实现思路