二维表格数据多模态模型构建与训练策略
2025-02-11 14:43
No.1338883132748996608
技术概要
PDF全文
本技术涉及一种二维表格数据多模态模型的构建与训练策略。该模型包含表格表征模块,该模块由一系列双向注意力机制模块组成,旨在提升模型对表格数据的理解与处理能力。
背景技术
大语言模型(LLM)在表格任务中的应用越来越广泛,尤其是利用上下文学习。将表格转化为LLM可以理解的序列化信息(通常为markdown、html、格式化string、json或者SQLschema等格式),结合在整体表格任务的上下文信息中,用于各种如代码生成、表格问答、表格理解、单元格提取等常见表格任务中,是目前最常见的研究和应用模式。现有技术通过生成自监督的表格结构理解任务,评估了不同表格格式(如JSON、DFLoader、Markdown等)和八种噪声操作(如列名重命名、行列随机化等)对LLMs在基本结构理解任务(如数据查找和表格转换)中的表现。 然而,由于二维表格数据字段、规模的不确定性和复杂性,在实际使用中,往往存在以下两点不足:1)不同模型、不同任务场景下,表格序列化输入形式,对任务最终性能影响极大,效果难以稳定;2)宽表(指字段数量超过100)及多表场景下,转化为序列化信息后,上下文长度过大,往往需要简化表格信息(如输入截断、行列抽取等),进一步影响了任务的精度和效果。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
赵俊博  陈刚  查良瑜  王皓波  伍赛
技术所属: 浙江大学计算机创新技术研究院
相关技术
基于分层过滤的顺风车站点推荐方法、装置、设备及介质 基于分层过滤的顺风车站点推荐方法、装置、设备及介质
一种机箱散热风扇安装结构 一种机箱散热风扇安装结构
在云系统上进行云计算的方法、装置及存储介质 在云系统上进行云计算的方法、装置及存储介质
对象评价处理方法、装置以及商户评价呈现方法和装置 对象评价处理方法、装置以及商户评价呈现方法和装置
BOM生效日期抓取方法、系统、BOM订单更新方法 BOM生效日期抓取方法、系统、BOM订单更新方法
基于深度学习的数字人交互视频业务实时分析方法及系统 基于深度学习的数字人交互视频业务实时分析方法及系统
配送时长调整方法、装置及电子设备 配送时长调整方法、装置及电子设备
一种基于UVM的spi接口存储单元控制器的验证平台及验证方法 一种基于UVM的spi接口存储单元控制器的验证平台及验证方法
一种接收方离线的数字货币抗量子计算交易方法及系统 一种接收方离线的数字货币抗量子计算交易方法及系统
哈希表中的索引数据回收和分配方法及装置 哈希表中的索引数据回收和分配方法及装置
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利