本技术方案覆盖计算机技术领域,介绍了一种服务器内存故障检测技术,包括周期性检查存在硬故障的内存单元,并对其所在的内存页进行离线处理。
背景技术
动态随机存取存储器(Dynamic Random Access Memory,DRAM)被广泛用于快速数据存储和检索。在DRAM单元中,数据以电荷的形式存储在电容器上,但这些电荷会逐渐泄漏。为了防止数据丢失,外部存储器刷新电路定期重写电容器中的数据,使其恢复到原始电量。然而这一机制容易受到各种因素的干扰。当DRAM芯片发生故障时,从单元中读取的数据可能与存储的值不同,从而出现内存错误。这些内存错误已经成为服务器部件故障的关键因素,对系统的可靠性、可用性和可维护性产生了负面影响。
常见的脱机策略是基于过去一段时间内的错误率统计,即在过去的T小时内达到X个错误时,将页面进行脱机处理。该实现方式虽然在一定程度上提高了系统的稳定性和可靠性,但它要求故障必须重复发生并累积到一定阈值才能被识别,从而导致了从故障发生到被检测到存在显著延迟。这种延迟可能允许错误扩散,影响系统性能,甚至导致数据损坏。
可见,如何提升内存故障识别的及时性,是本领域技术人员需要解决的问题。
实现思路