GPU动态内存管理技术、系统、设备及存储介质
2025-02-06 18:12
No.1337123785341673472
技术概要
PDF全文
本技术涉及计算机架构领域,提出了一种GPU动态内存管理技术,包括:获取GPU处理的目标稀疏矩阵;对该稀疏矩阵执行动态优化,生成多个优化子块矩阵。
背景技术
稀疏矩阵向量乘(SpMV)和稀疏矩阵乘法(SpMM)是在计算科学和工程领域中广泛使用的重要数学运算。在这两种运算中,矩阵被表示为稀疏矩阵,即大部分元素为零。这种稀疏矩阵的特点使得在处理大规模数据时能够有效地节省内存和计算资源。而由于SpMV和SpMM操作的不规则性以及相关存储器存储带宽的有限性,导致在GPU上实现更快并行的SpMV以及SpMM操作具有很大的挑战性,现有技术目前主要通过分块处理稀疏矩阵进行SpMV和SpMM的加速计算。 虽然分块处理稀疏矩阵具备提高密集向量的数据局限性、更容易实现负载均衡以及更加简便和灵活等优势,但是也存在如下问题: 首先,将稀疏矩阵划分为多个较小的分块可以更细腻地分配任务,容易实现负载均衡,但会增加通信开销。 其次,SpMV和SpMM等函数的子块内部的稀疏格式的数据结构通常包括多个数组,现有技术均是将多个数组分别进行Malloc,而由于子块通常很小以及子块通常是稀疏矩阵,所以,每个数组所需要的内存大小实际上很小,都会远小于所申请的内存单元;这导致生成的多个GPU内存单元内部存在巨大的内存碎片,极大的浪费了GPU宝贵的内存资源,同时还很大程度上降低了子块内数据的数据局部性。 最后,在不同品牌的GPU上所造成的空间浪费也不同,比如,在Nvidia GPU上,每次申请分配内存,都是以512B为基本内存单位去进行分配的,在国产DCU上,每次申请分配内存,都是以4KB为基本内存单位去进行分配的,在分块机制下,每个分块内数据结构所对应的数组大小远小于上述提到的基本内存单位;这导致在GPU上对矩阵数据应用分块方法时,会造成在不同品牌的GPU上显示出较大性能差异的现象。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
解晨浩  丛兴  刘轶  钱德沛  杨海龙
技术所属: 北京航空航天大学
相关技术
基于上下文感知和跨模态共享注意力的对话情感识别方法 基于上下文感知和跨模态共享注意力的对话情感识别方法
一种散热计算机机箱 一种散热计算机机箱
板卡结构及具有其的服务器 板卡结构及具有其的服务器
一种基于申威威鑫3231处理器的计算机系统核心处理模块 一种基于申威威鑫3231处理器的计算机系统核心处理模块
一种带有射频标签手术器械自动识别装置 一种带有射频标签手术器械自动识别装置
一种具有防撞功能的计算机机箱 一种具有防撞功能的计算机机箱
计算机及飞行器 计算机及飞行器
一种基于用户画像的商品推荐方法及系统 一种基于用户画像的商品推荐方法及系统
一种适用于大数据处理的计算机设备 一种适用于大数据处理的计算机设备
光纤电流传感器的非线性误差建模方法、介质及电子设备 光纤电流传感器的非线性误差建模方法、介质及电子设备
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利