个人信息为什么更喜欢谈“去标识化”?

2024-03-10 1,045 0

一、    脱敏和去标识化

最近,对较多的数据脱敏标准进行了解析,其中包括全国信息安全标准化技术委员会(简称安标委,TC260)在2019发布的GB/T 37964,针对个人信息进行了去标识化过程、以及数据去标识化方法的详细说明和指导,适用于:

  • 组织开展个人信息去标识化工作,
  • 网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。

但从当前安全的商业化市场来看,这套指南的基础思路并未被广泛参考,如提到最核心的“去标识化”用词,在当前数据安全产品中,我们通常统称为“数据脱敏”,国家也针对数据脱敏产品进行了产品质量的项目研究,包括当前发布的大多数行业(如电信网和互联网、电力、交通运输)/地方标准(如广东省健康医疗、各省份的公共数据)等,其标题无一例外都是“XXX数据脱敏XXX”,而非“XXX去标识化XXX”。意味着在业内,我们除了在合规文件中或“数据脱敏”的名词介绍中会看到这个词,几乎很少单独听到“去标识化”这个说法,即“标识”的概念还未在数据安全的商业市场内广泛应用,我们更多的是进行所有敏感字段无差别的去隐私化,而非重点针对“标识”数据进行去隐私化。

那如何理解T37964-2019 《信息安全技术 个人信息去标识化指南》提及的去标识化?

根据2021年通过的《中华人民共和国个人信息保护法》,其在全文均未提及“脱敏”这个词,但提到了两次“去标识化”。其一,在“个人信息处理者义务”章节第五十一条,提及:应“采取相应的加密、去标识化等安全技术措施;”;其二,在“附则”-第七十三条明确了用语的含义:“去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。”

即从广义来看,我们可以认为,去标识化是数据在个人信息脱敏场景下的特定用语,其本质还是数据脱敏。

但从狭义来看,“标识”的概念囊括了具体数据是否可以标识到自然人,也就意味着脱敏过程中,应围绕“如何脱敏才能够保证无法识别到特定自然人”这个目标进行脱敏方法的开展,这对于数据脱敏的要求更高。

目前,安标委已发布两份个人信息去标识化的文件,均以“去标识化”命名,作为个保法的落地标准之一,也算是和个报法相呼应:

  • GB/T37964-2019 《信息安全技术 个人信息去标识化指南》——告诉我们如何针对个人信息脱敏、脱敏的流程和机制、以及脱敏可参考的算法
  • GB/T 42460-2023 《信息安全技术 个人信息去标识化效果评估指南》——告诉我们如何进行个人信息脱敏的效果评定

本文主要归纳GB/T37964-2019《信息安全技术 个人信息去标识化指南》,形象感知脱敏过程中的“标识”概念,以及需遵循的目标和原则,尽管随着云和大模型的出现,部分描述需迭代更新,但我认为本份指南整体的思想还是非常值得借鉴学习,也是撰写本文的起因。

备注:为了方便,解读时我们将去标识化的概念,等同于数据脱敏。

二、    标识主体延伸出的相关概念和诉求

在GB/T37964-2019中,明确了需要脱敏的核心主体,即个人信息主体——人。以数据库为例,其中已存放了A班级的学生个人信息,我们找出其中描述这个学生的数据行,如“张三、15岁、330201189201239230、家住杭州市滨江区大马弄35号”这条记录,定义其为微数据

其中“张三”以及其它列对应的字段,如name,我们可称之为属性。同时,为了进行数据在之后去标识化过程中的必要性,我们在这条记录中,发现通过身份证号-330201189201239230是能够唯一确定信息主体就是张三这个学生主体,因此定义“身份证号”为直接标识符,而“张三、15岁、家住杭州市滨江区大马弄35号”这些数据对应的属性,虽每个属性不能单独标识出是谁,但可通过组合标识出张三这个人,因此定义“姓名”、“年龄”、“住址”为准标识符

去标识化的数据对象,简单理解,就是针对直接标识符、间接标识符进行去隐私化的过程。

但实际上,去标识化并不如想象中那么简单,我们需要在保证数据可用的前提下,充分评估去标识化后数据的安全性,即是否会被利用、依然存在关联到个人的风险,这里称之为重标识(即重新标识),就需要结合各类因素进行综合考量了,下文在去隐私化过程中会提及。

个人信息为什么更喜欢谈“去标识化”?插图

图表 1 从整体架构了解名词

三、    去标识化的目标

1、对直接/准标识符进行删除、变换

2、控制重标识的风险,将其风险控制在可接受范围内。

3、结合业务目标、数据特性,选择合适的去标识化模型和技术,确保脱敏后的数据满足预期可用的目标。

四、    去标识化的过程

结合以上脱敏目标,文中把数据脱敏分为了5个过程


4A评测 - 免责申明

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的。

不得将上述内容用于商业或者非法用途,否则一切后果请用户自负。

本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。

如果您喜欢该程序,请支持正版,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。敬请谅解!

程序来源网络,不确保不包含木马病毒等危险内容,请在确保安全的情况下或使用虚拟机使用。

侵权违规投诉邮箱:4ablog168#gmail.com(#换成@)

相关文章

webpack打包站点,js文件名批量获取思路
加密对抗靶场enctypt——labs通关
【论文速读】| 注意力是实现基于大语言模型的代码漏洞定位的关键
蓝队技术——Sysmon识别检测宏病毒
内网渗透学习|powershell上线cs
LLM attack中的API调用安全问题及靶场实践

发布评论