安华金和 | 细谈数据脱敏产品应用能力与价值差异

发布时间：2020-10-15 22:09:16 所属栏目：动态来源：站长网

导读：在数据脱敏这场赛跑中，产品的强弱快慢不在表面，下文中安华金和数据安全专家为您解读个中不同：随着我国信息化建设的持续推进，政府、企业乃至个人对数据安全的认知与重视程度不断提升。作为数据安全防护工作的重要一环，数据脱敏技术和产品已作为常规手

在数据脱敏这场“赛跑”中，产品的强弱快慢不在表面，下文中安华金和数据安全专家为您解读个中不同：

随着我国信息化建设的持续推进，政府、企业乃至个人对数据安全的认知与重视程度不断提升。作为数据安全防护工作的重要一环，数据脱敏技术和产品已作为常规手段，在开发测试环境构建以及数据外发共享等典型场景中被广泛普及应用。

如果单纯从“使用效果”来看，数据脱敏所要实现的不过是将用户真实数据迁移至新环境中，并对敏感数据进行变形、遮蔽等处理，达到数据“敏感性降低、标识化消除”的目的。但在安华金和看来，上述貌似简单明确的需求，如果没有数据安全厂商专业、复杂的技术支撑，非但无法将安全和便捷带给客户，还会在项目交付实施等环节造成一系列问题和麻烦!围绕以上问题，安华金和将带您透过一系列典型数据脱敏需求，看清其背后的产品功能与技术能力差异：

差异一：敏感数据发现与“精确”敏感数据发现

针对目标环境中的敏感数据进行发现，是进行数据脱敏公认的前提。然而，对这项技术的应用除必须考察数据脱敏产品的“发现性能和准确度”外，在实际使用过程中还隐藏着对产品更多“深度能力”的要求，这些能力将决定一款数据脱敏产品能否真正适用于真实复杂的场景：

1. 多种内容混合的字段脱敏

对于“由多种内容混合在一起“的字段，数据脱敏产品能否准确辨别其中每种数据的类型，同时给出类型占比以供使用者参考抉择?

安华金和观点：以个人信息收集场景为例，其中一个典型内容就是需要有人填写“联系方式”字段。但是由于填写人员对采集需求的理解不同，导致所填写的信息可能会由手机号、座机号、地址等五花八门的“个人信息”构成。而这些信息会存储在同一列中，如果单从数据特征入手，处理不善的话很容易将此字段当做非敏感字段被忽略掉。因此，一款成熟的数据脱敏产品的发现机制，不仅要能将上述字段准确识别为敏感数据字段，还要能根据采样数据给出各类数据在此字段中的发现占比;此外，在之后的数据脱敏运算环节中，还应能够根据每行数据的真正类型，对应地产生高度仿真的数据。

2. 无法判别敏感属性的字段脱敏

安华金和观点：对于“从数据特征上无法判别敏感属性”的字段，在传统数据脱敏产品的发现逻辑中往往容易被忽略，从而导致敏感数据的泄露;其实处理得当的话，此类数据是能够进行识别的，可通过以下两种方式进行：

其一，对属于某种集合范围内、能够被枚举概括的数据，可将这些集合全部列出作为数据字典保存;当遇到这类“落到字典中”的数据时，即可以此辨别其是否为敏感数据。例如：中国的省市区划、企业和机构的行政部门、股票证券行业的上市公司代码等，均可通过此类逻辑进行敏感数据发现。

其二，对字段命名具有特征的数据，可根据字段名称特征尝试进行敏感数据发现;通过这种发现方式得出的结果虽是基于猜测，但却能缩减客户大海捞针般的工作量。例如：保存有密码的字段，单从数据内容特征上是很难辨别其敏感性的，但若根据字段的名称，却可利用一条“包含了PWD或PASSWORD等字符串的列名”作为此类数据的疑似判别依据。

差异二：数据脱敏与“高度仿真”数据脱敏

数据脱敏，看似是描述相关产品“最基础能力”的词语，但在差异化使用场景下却对其有着不同能力的要求;比如客户对脱敏后数据”仿真”质量的要求，就会随着脱敏后数据的实际使用得到验证，从而对数据脱敏产品的“高度仿真”能力提出更多、更高的要求，往往由以下几个难度层级构成：

1. 内容仿真

基础的内容仿真，要求脱敏后数据从“数据类型、长度、格式、内在逻辑和语义”等特性上均与原始数据保持一致，不会对脱敏后数据的使用场景造成无法识别或产生歧义等问题。通常来说，市面上多数脱敏产品通过内置规则，可针对身份证、姓名、银行卡、手机号、地址等常见字段实现上述最基础的仿真要求。但当客户面对五花八门的使用场景时，想要实现脱敏后数据的“高度仿真”，就需要更加灵活的产品技术能力提供支撑。

安华金和举例说明：在某制造行业中，对于制成品的批次号需要进行脱敏，但批次号是由生产日期、车间号、流水线号和操作者相关信息共同组成的，这种行业级的数据显然已超出一般数据脱敏产品内置规则的默认范围，这时就需要安全厂商的数据脱敏产品能够对数据按位数进行切分，并基于切分的结果对各段配置脱敏规则。比如：对于日期段，可采用标准的日期脱敏规则;对于车间号、流水线号这种有范围的数据，要能基于数据字典进行脱敏;最终还要将各段组合成完整的脱敏后数据。

2. 区间、比例仿真

进阶一步的数据仿真，除对内容进行仿真外，还要求脱敏后的整列数据能够满足某些特征，以避免这些脱敏后数据被分发到分析统计场景后，因为失真降低其实用性。

安华金和举例说明：金融行业客户需要对储户的储蓄金额进行分析，但若拿到的脱敏后数据与原始数据相差过大，将会导致统计分析结果大大失真，因而需要脱敏产品的算法能够将金额数据划分区间步长，并能以“就近随机”的方式完成脱敏;而高校客户在统计生源分布比例时，即便拿到的已是将“北京市脱敏成上海市，天津市脱敏成江西省”这样的非真实数据，也还是希望“同一省市生源数据的比例”是不变的等等。

3. 关联仿真

关联仿真则是更进一步的数据仿真，要求脱敏后数据与其所在行的其他数据能够保留一定的关联关系或运算关系，安华金和举例说明：

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力