安华金和 | 细谈数据脱敏产品应用能力与价值差异
当身份证号、出生日期、年龄三个字段出现在同一个表中,则天然存在“身份证中间8位数据与出生日期一致,且当前年份减去出生日期即为年龄”这一逻辑关系。在这种情况下,就要求脱敏后数据也要保持这种关联关系,否则在分发到开发测试场景后极易造成业务系统出现逻辑异常; 而在制造行业,一张表中常存在“产品单价、折扣率、实际价格”三个字段,且存在“产品单价x折扣率 = 实际价格”这一逻辑关系。在这种情况下,如果对价格数据进行脱敏,那么要求脱敏后数据仍能保留上述运算关系,这就需要脱敏产品能够通过表达式精确处理此类行业内特定的数据逻辑关系; 再以证券行业为例,同一张表内常存在“证券号码、上市地区、企业名称”等存在对应关系的数据,并且要求在对证券号码或企业名称进行脱敏后,三者的逻辑关系依然能够对应。为此,脱敏产品需要能够针对多列数据字典,实现精确且保障效率的关联仿真脱敏运算。 综上安华金和认为,想要真正做到以仿真数据满足不同行业、不同场景下的客户使用需求,并不是简单一句“数据脱敏”所能概括的,其背后对厂商产品、技术有着更多、更高的要求与考验。 差异三:脱敏运算与“高性能”脱敏运算 脱敏性能,是客户极为关注的产品指标!在一些场景下,客户需要执行“一次全量脱敏后每天增量脱敏”的数据处理逻辑,这就要求脱敏产品必须在规定时间内处理完前一天的增量数据,不然就会直接影响到脱敏目标环境中的数据一致性;而在另一些场景中,对数据脱敏的需求则处于“随用随做”的节奏,且从数据脱敏需求被发出到完成数据脱敏环境的构建,留给相关人员的时间很可能十分紧张。无论面临以上哪种场景,都对大批量数据的脱敏性能提出着新的要求与挑战。除常规提升调度合理性与算法运算效率外,还有两个关键因素也影响着数据脱敏效率的提升: 其一,是利用数据库特性完成数据抽取与入库逻辑。例如:以“数据库并行加载机制或load机制”替换“通过JDBC读写数据”,这种方式会令数据脱敏产品的开发复杂程度大幅提升,但与此同时也会带来大规模数据脱敏性能的提升。 其二,是数据脱敏产品能够提供平行扩展的集群化部署运算能力,从而通过扩展运算节点的数量,成倍扩展数据脱敏产品的运算能力。 本文中,安华金和数据安全专家通过“三大差异”对数据脱敏产品能力的“不同之处”进行了详细介绍,希望这些来自真实使用侧的实践经验与问题思考,能够为更多客户在未来进行产品选型与技术比对时提供参考和指引,让数据使用自由而安全! (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |