基于L-多样性的数据发布系统应用与研究外文翻译资料

 2022-03-11 22:33:55

英语原文共 52 页,剩余内容已隐藏,支付完成后下载完整资料


l-Diversity: Privacy Beyond k-Anonymity

----------------------------------------------------------------------------------------------------------------------

发布有关个人的数据而不透露有关它们的敏感信息是一个重要问题。近年来, 一种新的隐私定义叫做 k-匿名, 已经得到了普及。在 k-匿名数据集中, 每条记录与至少 k minus;1其他记录在某些标识属性方面是不可区分的。

在本文中, 我们使用两个简单的攻击来展示K-匿名数据集存在的一些微妙但严重的隐私问题。首先, 当这些敏感属性的差异性不大时, 攻击者可以发现敏感属性的值。这是一个已知的问题。其次, 攻击者通常具有一定的背景知识, 我们发现,在攻击者使用背景知识进行攻击时,k 匿名并不能保证隐私不被泄露。我们详细分析了这两种攻击,并提出了一种新颖而强大的隐私标准,可以有效抵御此类攻击。, 称为L-多样性。除了建立一个L-多样性的正式基础之外,我们还在一个实验性评估中证明L-多样性是实用的并且可以高效地实施。

类别和主题描述符:E.m [数据]:杂项

一般类别:安全

其他关键字和短语: 数据隐私、k-匿名、L-多样性、保留隐私的数据发布

ACM参考格式:

Machanavajjhala,A.,Kifer,D.,Gehrke,J.,andVenkitasubramaniam,M.2007.?-Diversity:Privacy beyond k-anonymity. ACM Trans. Knowl. Discov. Data 1, 1, Article 3 (March 2007), 52 pages. DOI=10.1145/1217299.1217302 http://doi.acm.org/10.1145/1217299.1217302

1.前言

许多组织越来越多地发布微数据, 即包含有关个人各类信息的表。这些表格可以包括医疗、选民登记、人口普查和客户数据。而微数据的信息是宝贵的。

这些各种各样的信息可以应用于公共资金分配、医学研究和趋势分析。但是, 如果个人信息可以在微数据中唯一地确定, 那么他们的隐私信息 (如他们的健康状况) 将被泄露,这是微数据应用过程中要极力避免的。

为了避免在微数据中个人信息被识别, 可以从表中删除名称和社会安全号之类的唯一标识符信息。然而, 这第一次的信息处理仍然不能保证不泄露数据中的个人隐私。最近的一项研究估计, 87% 的美国人信息可以被看似无害的性别属性、出生日期和5位邮政编码 [Sweeney 2000] 来唯一地识别确定。事实上, 这三种属性被用来关联马萨诸塞州的选民登记记录 (包括姓名, 性别, 邮编和出生日期), 以推测从 GIC[1]得来的匿名的医疗数据(其中包括性别、邮政编码、出生日期和诊断结果)。此“链接攻击”成功地识别了,马萨诸塞州州长在医疗中的医疗记录[Sweeney 2002]。

属性集(例如, 上例中的性别、出生日期和邮政编码)可以与外部数据链接, 以唯一地标识人口数据中的个人信息,称为“准标识符”。为了用准标识符来反击链接攻击, Samarati 和Sweeney提出了一个名为k-匿名的隐私定义 [Samarati 2001; Sweeney 2002]。如果表中的每个记录的准标识符与至少k minus; 1 个其他记录不可区分, 则称表格满足 k-匿名; 这样的表称为k-匿名表。因此, 对于k-匿名表中的准标识符值的每个组合, 至少k个记录拥有相同的组合值。这样可以确保无法通过链接攻击来唯一地标识个人.

例如:图1显示了位于纽约州北部的一家虚拟医院的医疗记录。请注意, 该表不包含名称、社会保险号等唯一标识属性。在此示例中, 我们将这些属性划分为两个组:敏感属性 (仅包括医疗条件) 和非敏感属性 (邮政编码、年龄和国籍)。如果不允许攻击者发现数据集中的任何个人具有的该属性的值,则该种属性被标记为敏感,其他的属性即为非敏感属性,而且,该数据集的该种属性的值 {邮政编码、年龄、国籍} 称为此数据集的准标识符。图2是从图1中的表中得到的4-匿名表 (此处为 '*' 表示未知值, 例如, '邮政编码= 1485* ' 表示邮政编码在范围 [14850–14859]之间,'年龄 = 3* ' 表示年龄在范围 [30–39]之间)。请注意, 在4-匿名表中, 每个元组与表中至少三个其他元组具有相同的准标识符值。

由于其概念简单,k-匿名已被广泛认可为数据发布中隐私保护的可行定义,由于算法在改进k-匿名的数据集方面取得了进展[Aggarwal et al. 2004; Bayardo and Agrawal 2005; LeFevre et al. 2005; Meyerson and Williams 2004; Samarati 2001; Sweeney 2002; Zhong et al. 2005],

非敏感属性

敏感属性

邮政编码

年龄

国籍

身体状况

1

13053

28

俄语

心脏病

2

13068

29

美国

心脏病

3

13068

21

日语

病毒感染

4

13053

23

美国

病毒感染

5

14853

50

印度

癌症

6

14853

55

俄语

心脏病

7

14850

47

美国

病毒感染

8

14850

49

美国

病毒感染

9

13053

31

美国

癌症

10

13053

37

印度

癌症

11

13068

36

日语

癌症

12

13068

35

美国

癌症

表 1. 病患微数据

非敏感属性

敏感属性

邮政编码

年龄

国籍

身体状况

1

130**

lt;30

*

心脏病

2

130**

lt;30

*

心脏病

3

130**

lt;30

*

病毒感染

4

130**

lt;30

*

病毒感染

5

1485*

ge;40

*

癌症

6

1485*

ge;40

*

心脏病

7

1485*

ge;40

*

病毒感染

8

1485*

ge;40

*

病毒感染

9

130**

3*

*

癌症

10

130**

3*

*

癌症

11

130**

3*

*

癌症

12

130**

3*

*

癌症

表 2. 4-匿名病患微数据

k-匿名化越来越受欢迎。但是, k-匿名是否真的保护了隐私?在下一节中, 我们将展示这个问题有趣的答案——没有。我们给出了两个简单而又巧妙的攻击的例子,这是一个k-匿名数据集,它允许攻击者识别单个记录。防御这些攻击需要一个更有效的隐私保护原则, 我们称之为L-多样性, 即这篇文章的讨论的中心。但现在我们回到所讨论事项的开头,让我们先演示两个攻击, 以给出k匿名原则隐藏的问题。

1.1 对k-匿名的攻击

在本节中, 我们提出了两个攻击——同质攻击和背景知识攻击, 我们展示了如何使用它们来攻击k匿名数据集。

同质性攻击:Alice和Bob是敌对的邻居。一天,Bob生病了,被救护车送到了医院。看到救护车后, Alice就出发去查探Bob患了什么病。Alice发现医院公布的目前住院记录的4-匿名表 (图 2), 当然她知道此表中的一个记录包含 Bob 的数据。自从Alice是Bob的邻居, 她渐渐知道Bob是一个31岁的美国男性,住所的邮政编码为 13053 (德莱顿的一个宁静的城镇)。因此, Alice 知道 Bob 的记录号是9、10、11或12中的一个。所有这些病人都有相同的身体状况 (癌症), 所以Alice得出结论, Bob有癌症.

观察1. k匿名可以创建数据组,但这种创建的数据组由于敏感属性中缺少多样性而泄漏信息。

这种情况上很常见。保守估计, 假设我们有一个包含6万个不同元组的数据集, 其中敏感属性可以取三个不同的值, 并且与非敏感属性不相关。此数据表进行5-匿名化后,将大约有1.2万组[2], 平均每81个组中就有1个不具有多样性 (敏感属性的值都将相同)。因此,我们可以推算约有148组数据没有多样性。因此, 大约740 人的信息将因为同质性攻击而泄露,这表明, 除了k匿名之外, 被匿名化处理的表还应确保多样性, 也就是说, 所有具有相同准标识符值的元组都应该具有多样的敏感属性值。

全文共9462字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[16639],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。