尺度不变特征变换技术在同源蛋白识别中的应用
2025-02-11 12:44
No.1338853280008380416
技术概要
PDF全文
本技术属于生物信息学领域,提出了一种结合尺度不变特征变换(SIFT)和预过滤技术的同源蛋白质查找方法。该方法首先提取待比对蛋白质结构中的α碳原子坐标,随后通过SIFT算法计算其特征描述符,再利用预过滤机制优化比对过程,以提高同源蛋白质识别的准确性和效率。
背景技术
随着人工智能驱动的蛋白质结构预测工具(如AlphaFold2、RoseTTAFold和ESMFold)的飞速发展,生物信息学领域已获得数十亿个蛋白质结构。 然而,现有的蛋白质结构比对工具(如Dali、CE align等),在处理大规模数据时依然存在效率低下的问题,如图1所示。具体地,如图1中的(a)所示,为主流算法Foldseek算法(包括有预过滤器的Foldseek算法和无预过滤器的Foldseek算法)、Dali(Distance matrixalignment ,距离矩阵对齐)算法、CE(Combinatorial Extension,组合扩展比对) 算法和ADAMS(Align DistAnce Matrices with SIFT,使用尺度不变特征变换算法对齐距离矩阵)算法的速度比较,Dali算法在面对数亿级别蛋白质数据库的单次搜索时可能需要数月甚至数年的时间。而新一代结构比对算法,如Foldseek、Progres等,虽然提升了速度,但在处理具有高柔性区域的蛋白质时精度有所下降。例如,Foldseek算法通过将结构比对简化为序列比对的方式提高了速度。然而,在处理具有高度柔性区域的蛋白质时,如图1中的(b)所示,Foldseek算法可能会出现错误比对或错失重要的同源结构,其中,图1中的(b)使用Foldseek算法和ADAMS算法对人类-秀丽隐杆线虫同源蛋白质进行结构比对的正确率进行比较,其中,图1中的(b)中的韦恩图表示两个算法各自的正确比对数,直方图表示正确的比对结果中蛋白质无序区的长度,由图1中的(b)中可知ADAMS能够更好处理长无序区的结构比对。 进一步地,如图1中的(c)和图1中的(d)所示,通过对拥有不同长度蛋白无序区的蛋白质,ADAMS和Foldseek比对正确率的统计,蛋白质结构比对工具ADAMS在一定程度上解决了高度柔性区域带来的噪声问题,并且在结构查找速度上与Foldseek相似。然而,其数据预过滤(Prefilter)机制效率不高,导致在对大规模数据库进行结构搜索比对时,仍需遍历整个数据库。这一过程需要较大的GPU(Graphics Processing Unit,图形处理器)显存和内存资源来进行结果的预存,从而消耗了大量的计算资源和时间。 综上所述,相关技术中,难以同时兼顾比对精度和比对速度,且资源占用较为严重,难以推广应用,有待改进。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
郭正阳  欧光朔  李明
技术所属: 清华大学
相关技术
一种图像识别方法、装置、设备、介质及计算机程序产品 一种图像识别方法、装置、设备、介质及计算机程序产品
一种目标识别方法、装置、设备、介质及计算机程序产品 一种目标识别方法、装置、设备、介质及计算机程序产品
代价地图生成方法、设备、介质、产品及无人驾驶车辆 代价地图生成方法、设备、介质、产品及无人驾驶车辆
基于熵权法和装箱算法的Modbus RTU跨TSN调度方法 基于熵权法和装箱算法的Modbus RTU跨TSN调度方法
一种基于状态引导以及种子变异的网络协议模糊测试方法和装置 一种基于状态引导以及种子变异的网络协议模糊测试方法和装置
基于纹理特征分析的接触式仪器三维轮廓缺陷检测方法 基于纹理特征分析的接触式仪器三维轮廓缺陷检测方法
一种细胞图像配准方法及其装置 一种细胞图像配准方法及其装置
一种基于多模态信息融合的图像分类方法 一种基于多模态信息融合的图像分类方法
对象相对自身行进方向确定方法及装置 对象相对自身行进方向确定方法及装置
染色体识别方法及系统 染色体识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利