本技术涉及数据库隐私保护,特别是一种利用动态直方图实现差分隐私的方法、系统和设备。该技术在接收到基于直方图的数据查询请求时,依据时间范围动态调整直方图,以保护数据隐私。
背景技术
随着人工智能与大数据技术的迅速发展,使得数据的收集与分析变得尤其容易,服务机构通过对数据收集者所收集和汇聚的数据库进行分析和查询,以便于开发出更具有个性化的工具。然而,随着计算机技术的不断进步,数据库技术一直在不断变化,数据的查询方式也在不断的探索和发展。与静态数据库不同,动态数据库是一种能够根据需要动态更新和修改的数据库。动态数据库允许数据的添加、删除和修改,以满足不断变化的需求。动态数据库通常应用于需要频繁更新和查询数据的场景,如在线交易系统、社交网络等。数据分析者(或第三方的商业组织)通过向拥有动态数据库的可信任服务器提出动态查询请求,服务器可以及时向其响应查询结果。然而,不可信的数据分析者可能会从多个响应结果中推测出用户的隐私信息,进而威胁到用户的财产和自身安全。针对这一问题,差分隐私技术通过扰动查询结果的方式以确保用户的数据和隐私安全。目前,差分隐私着眼于面向静态数据的聚合查询等研究,而涉及动态数据的数据查询和数据发布的工作寥寥无几。
随着数据库的不断演变,查询方式也在不断变化,其中直方图也是计数查询的一种形式。动态数据库中的数据查询广泛应用在OLTP(On-Line Transaction Processing,联机事务处理)中,而如何在动态数据中实现用户隐私保护的同时发布直方图已成为一种差分隐私研究的新思路。目前,在有限的时间 T内,基于动态数据直方图发布的差分隐私方案一般包含以下三个步骤:首先,对当前时间节点的数据进行直方图汇总,然后对该节点的真实结果添加噪声,根据计算的全局敏感度大小和每个节点的隐私代价校验噪声,为隐私代价。最后,通过发布的扰动直方图向数据分析者响应查询结果。然而,由于动态数据的数据量随时间增加而增加,数据的更新会影响差分隐私技术的隐私保护效果。扰动结果也会随着时间 T的增加而导致查询的可用性降低。因此,当前面向动态数据库的差分隐私直方图发布方案普遍存在所添加的噪声随时间的增加线性增长的问题,最终导致查询结果的可用性较低。
针对噪声引入过多的问题,目前的差分隐私方案集中于时间节点采样的方式。基于时间节点采样的差分隐私方案的基本思路为:当该时间节点被采样命中,对该时间节点的数据进行扰动处理,反之,不需要对数据进行处理,依据前一时刻被采样命中的数据结果进行查询响应。但该方案存在的缺陷包括,只使用某些时间样本的数据来进行分析或查询,这可能会导致分析结果的准确性降低。因此,并不能从本质上改善噪声对动态数据库查询的影响。
除此之外,上述的差分隐私直方图发布方案只能适用于某一时间节点的查询,并不适用于对任意范围时间节点的更新数据进行查询。如果对任意范围时间的数据进行查询,其方案只能通过对该范围中的所有时间点的数据均进行查询之后,再对所有的扰动结果进行汇总聚合。但是,该方案查询结果的误差与查询范围长度成正比,所以在针对较长的范围计数查询时会额外引入过多的噪声,从而导致查询结果的准确性降低。与此同时,对于动态数据库的查询,服务器也不可以及时的进行响应反馈。
实现思路