本申请公开了一种基于人工智能的数据安全处理方法,包括:采集敏感数据序列,将采集到的敏感数据序列拆分成若干个可行性字符串;根据得到的可行性字符串生成特征字符串,获取各特征字符串的后缀字符,根据出现可能性得到各特征字符串的长字符串;选择字符集和编码长度,对编码结构进行定义;根据字符集,生成补偿编码;基于得到的长字符串,根据编码规则生成等长编码,若生成的等长编码中有多余位置,从补偿编码库中选择补偿编码进行填充;在等长编码的随机位置处插入字符。等长编码和补偿编码,使得原始字符串的统计特征被隐匿,增加了破解的难度,通过随机位置的生成,使得补偿编码的分布变得难以预测。
背景技术
在数据处理与安全保护的交叉领域,特别是针对敏感信息的编码策略,传统方法多依赖于静态的编码框架与规则,例如基础的替换密码、哈希运算及标准化编码算法。然而,这些传统手段在应对当前复杂的数据解析与破解技术时,展现出了一定的局限性,这一局限性主要源于其固有的静态特性。具体而言,通过分析编码文本的模式与统计特性,攻击者可能揭示出原始数据的蛛丝马迹,从而加剧了数据泄露的风险。传统编码方式未能充分考量数据随时间而变化的动态性。在实际场景中,敏感数据往往处于不断变动之中,而静态编码规则难以适应这种变化,导致编码的安全防护能力随时间推移而减弱。更为严重的是,对于那些长期保持稳定的字符串内容,传统编码方法往往无法有效掩盖其统计规律性,使得这些字符串易于被识别并追溯至其原始意义,进一步加剧了数据隐私泄露的风险。
如中国专利公告号CN116933297 B公开了一种金融敏感风险数据安全保护方法,所述方法包括:采集得到敏感风险数据序列,根据敏感风险数据序列得到特征字符串,获取各特征字符串的所有后缀字符,确定所述后缀字符的出现可能性,进而得到各特征字符串的长字符串;根据各特征字符串的长字符串完成各特征字符串处的字典更新,完成对敏感风险数据序列的加密得到密文数据。进而隐藏敏感风险数据序列中统计信息,提高加密安全性。
对比文件中特征字符串中的后缀字符,攻击者可能会通过分析后缀字符发现其中的模式,从而增加破解的风险,对比文件中静态编码规则因其固定不变的结构,易成为破解者分析的目标。
实现思路