本技术属于生物信息学领域,提出了一种结合尺度不变特征变换(SIFT)和预过滤技术的同源蛋白质查找方法。该方法首先提取待比对蛋白质结构中的α碳原子坐标,随后通过SIFT算法计算其特征描述符,再利用预过滤机制优化比对过程,以提高同源蛋白质识别的准确性和效率。
背景技术
随着人工智能驱动的蛋白质结构预测工具(如AlphaFold2、RoseTTAFold和ESMFold)的飞速发展,生物信息学领域已获得数十亿个蛋白质结构。
然而,现有的蛋白质结构比对工具(如Dali、CE align等),在处理大规模数据时依然存在效率低下的问题,如图1所示。具体地,如图1中的(a)所示,为主流算法Foldseek算法(包括有预过滤器的Foldseek算法和无预过滤器的Foldseek算法)、Dali(Distance matrixalignment ,距离矩阵对齐)算法、CE(Combinatorial Extension,组合扩展比对) 算法和ADAMS(Align DistAnce Matrices with SIFT,使用尺度不变特征变换算法对齐距离矩阵)算法的速度比较,Dali算法在面对数亿级别蛋白质数据库的单次搜索时可能需要数月甚至数年的时间。而新一代结构比对算法,如Foldseek、Progres等,虽然提升了速度,但在处理具有高柔性区域的蛋白质时精度有所下降。例如,Foldseek算法通过将结构比对简化为序列比对的方式提高了速度。然而,在处理具有高度柔性区域的蛋白质时,如图1中的(b)所示,Foldseek算法可能会出现错误比对或错失重要的同源结构,其中,图1中的(b)使用Foldseek算法和ADAMS算法对人类-秀丽隐杆线虫同源蛋白质进行结构比对的正确率进行比较,其中,图1中的(b)中的韦恩图表示两个算法各自的正确比对数,直方图表示正确的比对结果中蛋白质无序区的长度,由图1中的(b)中可知ADAMS能够更好处理长无序区的结构比对。
进一步地,如图1中的(c)和图1中的(d)所示,通过对拥有不同长度蛋白无序区的蛋白质,ADAMS和Foldseek比对正确率的统计,蛋白质结构比对工具ADAMS在一定程度上解决了高度柔性区域带来的噪声问题,并且在结构查找速度上与Foldseek相似。然而,其数据预过滤(Prefilter)机制效率不高,导致在对大规模数据库进行结构搜索比对时,仍需遍历整个数据库。这一过程需要较大的GPU(Graphics Processing Unit,图形处理器)显存和内存资源来进行结果的预存,从而消耗了大量的计算资源和时间。
综上所述,相关技术中,难以同时兼顾比对精度和比对速度,且资源占用较为严重,难以推广应用,有待改进。
实现思路