一种提高深度算子网络模型推理求解和训练速度的方法

123技术园

首页 / 技术内容

2025-02-23 14:56

No.1343235052129230848

技术概要

PDF全文

本技术属于人工智能及高性能计算技术领域，特别涉及一种提高深度算子网络模型推理求解和训练速度的方法。本发明针对PI‑DeepONet模型进行多层次的优化，提高其推理求解速度和训练速度。本发明定制SGEMM算子，在PI‑DeepONet常用的模型尺寸范围内，SGEMM算子相较于CUDA计算平台的基础线性代数库中最好的单精度矩阵乘法可取得最高1.5倍的加速比。针对模型中使用的modified MLP的特殊结构设计融合算子，模型的端到端推理速度获得2倍以上的加速比，图形处理器计算时间最高可被缩短5.7倍。本发明使用数据并行对模型进行分布式训练，并使用通信掩盖的策略，可扩展性保持在83%‑85%。

背景技术

偏微分方程的求解在工程技术、生物数学和图像处理等许多科研领域的研究中都起着至关重要的作用。例如，在石油工程领域中，通过求解伯格斯方程、达西渗流方程等流体力学方程，可以得到油藏中流体的速度和压力分布情况，构建出真实油田的数值模型，进而对储量评估、产能预测和油田开发方案预测等方面的决策起到指导性作用，帮助提高石油勘探开发的效率和经济效益。长期以来，偏微分方程的求解一直是一项非常重要且具有挑战性的任务。一方面，许多物理系统的数学建模是通过偏微分方程构建的，求解偏微分方程是这些领域中开展科学研究的重要手段，也是许多工业软件和物理计算的基础。经典的求解方法包括有限差分法和有限元法等，它们通常在给定的定义域上进行复杂的网格划分，将连续的问题域划分为离散的网格，并在划分的结果上使用简单的函数进行近似，最终得到方程的近似解。另一方面，使用传统数值方法求解偏微分方程存在着若干难点：首先，这些方法都依赖于网格划分，为某一特定的求解问题设计合适的网格这一过程本身就具有挑战性；然后，这些方法在计算过程每一步都伴随着大量的迭代计算，这往往意味着很高的计算代价；此外，使用数值方法求解偏微分方程，其流程可能会因为问题的不同而差异巨大。最近，基于深度学习的方法成为了求解偏微分方程的另一类有效手段，并广泛应用于流体力学、热传导方程、材料学等许多领域。这类方法已经可以取得较好的精度；同时，相较于传统数值方法，训练好的深度学习模型在求解速度方面有巨大的优势。自上世纪90年代起，已有若干研究致力于使用神经网络来求解偏微分方程。其中，Dissanayake和Phan Thien将偏微分方程的求解问题转化为无约束最小化问题，提出了使用神经网络求解偏微分方程的算法，并使用其算法求解了泊松方程和非线性热传导方程，这项工作是使用神经网络求解偏微分方程这一研究方向的开端。但受限于当时计算机的算力和所使用的神经网络模型的局限性，这些方法往往只能用于简单偏微分方程的求解，因此它们在当时并未能得到广泛的关注和足够的重视。 2019年，Raissi等人提出了一项具有开创性的工作PINN，他们在深度神经网络中使用偏微分方程的控制方程、初始值和边界值条件来构造损失函数约束网络模型的收敛方向，相较于单纯使用标签数据来进行训练，这种思路下训练得到的模型更能符合方程本身的条件。在此之后，许多PINN的变体被提出。UQPINN结合了PINN和对抗学习的策略来处理各种偏微分方程。fPINN结合了PINN和时间离散化技术用以求解时间分数阶偏微分方程。PPINN通过将一个长时问题分解为多个独立的短时问题来减小算法的训练代价并更高效地处理长时问题。但不论进行了何种程度的改进，其核心思想都是将偏微分方程本身的条件加入到深度神经网络网络模型中来约束模型的训练，因此它们都是基于物理信息的深度神经网络。另一类方法是使用具有独特结构的算子神经网络来求解偏微分方程，这类方法的网络模型逼近的对象不再是偏微分方程的解函数，而是将基函数映射为解函数的算子，这类方法往往具有更好的泛化性。其中最具代表性的两个工作分别是Lu Lu等提出的深度算子网络（DeepONet）和ZongYi Li等提出的傅里叶神经算子（FNO）。之后，基于这两种算子神经网络的改进工作和应用工作也被相继提出。S-DeepONet通过在DeepONet的分支网络中引入时序网络结构来用于输入数据具有时序性的问题。Goswami S等提出一种提高深度算子网络模型推理求解和训练速度的方法基于物理原理的V-DeepONet用于脆性断裂分析。GegeWen等提出U-FNO用于多相流问题的求解。Meer Mehran Rashid等使用FNO来学习二维复合材料的力学响应。虽然基于算子神经网络求解偏微分方程的方法具有泛用性强的优点，但因为其纯数据驱动的方式而无法应对标签数据较少甚至没有标签数据的情况。而在现实问题中，一些领域的真实数据可能难以大量获取或者获取成本非常高昂，只有非常少量的标签数据，因此也有一些工作尝试将算子神经网络与基于物理信息的神经网络的思想结合，在算子神经网络的模型中加入偏微分方程的条件作为约束。PI-DeepONet是一种提高深度算子网络模型推理求解和训练速度的方法先进的用于求解偏微分方程的深度学习模型，PI-DeepONet在DeepONet网络模型的基础上，用偏微分方程的控制函数和初边值条件构建损失函数，实现了在完全没有标签数据的情况下依然能够训练网络模型至收敛，并取得了较好的准确性。但是，在使用PI-DeepONet求解偏微分方程时，模型的训练和推理速度会因为模型的一些结构特点受到限制：较窄的全连接层宽度和较大的批次大小会导致低效的矩阵乘法计算，许多逐元素算子的频繁启动也会带来额外的开销，这将限制模型的推理速度；另一方面，由于使用了PINN结构，大量求导计算被引入训练过程中，模型训练的时间开销也变得难以忽视。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

王珣宋弢朱先禧

技术所属：中国石油大学（华东）

相关技术

FPGA实现硬件逻辑实时仿真的方法及装置 FPGA实现硬件逻辑实时仿真的方法及装置
本申请实施例提供一种FPGA实现硬件逻辑实时仿真的方法及装置，方法包括:将待仿真的算法模型封装成可复用的可编程阵列逻辑器件的算法IP核,并在算法IP核中定义算法模型的输入输出端口和参数接口；通过可编程阵列逻辑器件的预设设计工具将顶层设计文件进行综合布局布线，生成对应的可在可编程阵列逻辑器件上直接运行的比特流文件,并将比特流文件下载至目标硬件平台启动运行；本申请能够有效提升仿真效率和准确性。
基于API和数据库的动态标定方法 基于API和数据库的动态标定方法
本发明公开了一种基于API和数据库的动态标定方法，在MPU端设计外部服务接口API，将MCU端的标定参数转化为MPU端外部接口API，让外部系统获取和修改标定参数；在MPU端通过特定的配置服务将外部系统提供的参数转化为数据库中的标定参数；MPU端数据库中标定参数被外部接口API修改后，MCU端对应的标定参数被同时修改。外部系统通过外部上位机或文件提供动态编写和验证功能，实现外部系统对标定参数的修改。本发明的技术方案可以方便地扩展和升级，支持更多的标定参数类型和格式，支持多个数据库和API接口，以及支持更多的外部系统和平台。
一种虚拟机的沙箱引擎更新方法、装置、设备和介质 一种虚拟机的沙箱引擎更新方法、装置、设备和介质
本发明公开了一种虚拟机的沙箱引擎更新方法、装置、设备和介质，由于该方法在虚拟机恢复到快照文件对应的状态后，通过对全局数据指针和检测函数的更新，就可以实现对沙箱引擎的更新，因此无需重新制作快照文件和沙箱环境，对沙箱引擎进行更新时需要制作的更新包较小，更新效率高。
频域响应仿真与测量数据处理方法及装置 频域响应仿真与测量数据处理方法及装置
本申请实施例提供一种频域响应仿真与测量数据处理方法及装置，方法包括:选择与试验测点相对应的位置作为与物理三维模型对应的仿真模型节点的选取位置，在仿真模型中将仿真有限元距离试验测点相对于相邻点间距离低于阈值时，将距离试验测点最近的有限元节点作为与试验测点相匹配的空间点，得到对应的空间分布比对结果；通过预设模态匹配算法对仿真结果数据与现场实测频率响应数据进行模态相关性分析，得到仿真结果数据与现场实测数据的模态匹配关系，根据模态匹配关系得到频域响应比对结果；根据空间分布比对结果和频域响应比对结果修正物理三维模型的仿真参数；本申请提高数据处理和比对的准确性，实现仿真数据与试验测量数据的实时整合和分析。
服务数据节点迁移方法、装置、电子设备及存储介质 服务数据节点迁移方法、装置、电子设备及存储介质
本公开提供了一种服务数据节点迁移方法、装置、电子设备及存储介质，所述方法包括:通过多个接口节点中第一接口节点的第一检测器，获得多个服务数据节点中与第一接口节点绑定的第一服务数据节点运行异常的检测结果；通过第一接口节点的第一检测器，响应于第一服务数据节点运行异常的检测结果，向服务控制节点发送服务迁移请求；通过服务控制节点，响应于服务迁移请求，解除第一接口节点与第一服务数据节点之间的绑定关系，将第一接口节点中的各服务迁移至多个接口节点中的第二接口节点，第二接口节点与多个服务数据节点中的一个具有绑定关系。借此，本申请可在检测接口节点的服务数据节点出现运行异常时，自动触发服务数据节点的迁移处理，确保服务的连续性和可用性。
配送控制方法、装置、服务器、智能柜及机器人 配送控制方法、装置、服务器、智能柜及机器人
本发明实施例公开了一种配送控制方法、装置、服务器、智能柜及机器人。所述方法在获取用于表征目标订单配送需求的配送需求信息后，响应于配送需求信息为机器人配送，向机器人发送取件消息，响应于接收到机器人发送的开门请求，控制智能柜打开目标柜格的第一柜门，以使所述配送物品转移到所述机器人的物品暂存格中。其中，所述目标柜格中存储有与目标订单对应的配送物品。通过所述配送控制方法可以降低配送成本，同时提高配送效率并改善用户体验。
适用于硬件电路的高精度压缩方法、装置及电子设备 适用于硬件电路的高精度压缩方法、装置及电子设备
本发明提供一种适用于硬件电路的高精度压缩方法、装置及电子设备，应用于图像处理技术领域，该方法包括:获取目标图像；将所述目标图像输入卷积神经网络模型；输出所述目标图像对应的图像类别；其中，该卷积神经网络模型是基于不同类别的图像训练得到的、经过压缩的神经网络模型，该卷积神经网络模型的每个卷积层中包括至少一组卷积核参数为卷积核共享参数。
融合多源信息的打击目标智能识别方法和系统 融合多源信息的打击目标智能识别方法和系统
本发明涉及目标智能识别域，具体是融合多源信息的打击目标智能识别方法和系统，该方法通过构建城市区域的实时三维模型获取遮挡区域的分布信息，通过数据融合方法得到打击目标的特征信息，通过空间对比分析预测打击目标进入的遮挡区域；通过动态滤波算法预测所述打击目标在所述遮挡区域的预测移动轨迹；通过所述预测移动轨迹和打击目标的特征信息得到打击目标在遮挡区域的实时位置；获取打击目标离开遮挡区域时的检测数据并通过特征匹配算法得到识别结果，当所述识别结果为无法确认打击目标时，则目标识别系统触发矫正机制。以解决打击目标进入隐蔽区域后，难以进行持续追踪并精确锁定目标，导致打击精度下降或丢失目标的问题。
水利对象关联关系建立方法 水利对象关联关系建立方法
本发明提供水利对象关联关系建立方法，从目标数据源获取建立水利对象关联关系的原始基础数据，所述原始基础数据至少包括:江河湖泊描述数据、水利工程描述数据、水利管理描述数据；对所述建立水利对象关联关系的原始基础数据进行预处理，以生成有效基础数据，所述预处理包括：去重、缺失值填补、错误值修正；通过对所述有效基础数据进行本体编码，以将不同类型的有效基础数据映射到同一标准下并使得关联与同一水利对象的不同类型的原始基础数据之间建立关联关系并生成有效基础数据之间的实体互联图谱；基于预先建立的水利对象拓扑关系，根据有效基础数据之间的实体互联图谱进行实体以及实体间功能关系的迭代，以建立水利对象关联关系。
问题解答方法、装置、介质和电子设备 问题解答方法、装置、介质和电子设备
本公开提供了一种问题解答方法、装置、介质和电子设备，所述方法包括:获取第一客户终端传送的第一解答请求；对所述问题音频进行音频语义分析，从所述问题音频中获得至少两个问题关键词；基于所述至少两个问题关键词对知识集进行匹配搜索，获得第一搜索结果；响应于不存在所述第一搜索结果，至少基于所述问题音频生成第二解答请求；将所述第二解答请求传送至第二客户终端，以便获得响应所述第二解答请求的解答信息，并传送至所述第一客户终端。从而降低了答疑教师的工作量，使复习者提出的问题能够及时解答，提高了答疑效率，也提高了复习者的复习效率。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工