本技术提出了一种代理模型驱动的动态推理查询优化技术及其配套装置,旨在提升数据处理效率。该技术通过接收包含待处理数据和系统资源的数据查询请求,基于此生成多个代理模型,并通过这些模型预测不同查询策略的性能。接着,选择最优策略执行数据查询,以实现资源的高效利用和查询性能的最大化。
背景技术
近年来,随着大数据和人工智能技术的飞速发展,数据规模不断增长,数据分析的过程也变的越来越复杂,通常涉及到复杂的机器学习、深度学习技术,从而从海量数据中挖掘出知识。数据分析的过程以查询的形式体现,而复杂的机器学习、深度学习模型被封装在用户自定义函数(User-Defined Functions,UDFs)中。在大规模数据上,处理复杂的机器学习UDF查询通常是非常耗时的。比如,在一天的监控视频数据上处理一个车辆识别的过滤查询,通常需要花费数周的时间。相关技术提出了一种UDF过滤查询优化方法:
S1,定义求解问题;在相关性代理模型的基础之上,首先说明求解问题的搜索空间;然后定义面向UDF过滤查询的重排(Reordering)优化问题,寻找最优的查询执行计划;最后,证明该优化问题是NP-完全问题;
S2,构建系统框架;在相关性代理模型的基础之上,构建基于重排技术的UDF过滤查询处理系统框架;
S3,设计求解算法;在相关性代理模型的基础之上,设计面向UDF过滤查询的重排(Reordering)优化问题的求解算法;
S4,设计优化算法;根据要求解的问题的特性,将底层的搜索树结构进一步细化,提供一种细粒度的搜索树;并且提出一种搜索的过程中的准确率分配算法,进一步收缩候选执行计划的执行代价的上下界。
然而,在数据特征变化或系统资源波动的情况下,上述数据查询的执行效率依旧较低。
目前,针对相关技术中数据查询方法不够高效的问题,还没有提出有效的解决方案。
实现思路