英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
译文:
摘 要
当用户的个人隐私数据保存到数据库中时,差分隐私为其承担最小的额外风险提供了有力的保证。目前,差分隐私领域的多数研究主要集中于差分隐私算法模型、计数和直方图的产生。尽管如此,即使有一个分类模型是由差分隐私算法产生的,但直接发布该分类器的输出结果仍有泄露隐私的可能。因此,对于机器学习的差分隐私评估指标的计算是一个重要的研究领域。在本文中,我们提出了一种计算受试者工作特征曲线(ROC)包围面积和平均精确率的有效机制。
1.引言
人们已经知道机器学习模型会泄露用于训练它们的数据的信息。虽然在极端情况下,最近邻模型可能会存储数据集本身,但实际上各种类型的模型都会或多或少产生隐私泄露的情况。即使是训练集中的一些小变化也可以在模型中被检测到。针对这一现象,有一种有效的办法来保护训练集的隐私,就是使攻击者难以辨别有关训练数据的信息。目前,这种方法常用的框架是差分隐私[5],当任何一行训练数据集的数据被更改的时候,差分隐私算法对发生改变的数据量进行了限制。
一些作者修改了现有的机器学习算法,使其可以满足差分隐私,例如[3,7,16,19]。机器学习算法是对训练数据集上的查询,而修改了的算法输出的是其扰动模型。这样做,就可以向公众发布训练好的模型,并且即使攻击者得到了一些相关信息,模型的所有者需要承担的隐私风险,就是保护模型所使用的数据集中的每一行数据,也可以被严密限制。然而,这些只保护了训练数据集,却没有考虑到模型的后续使用过程,例如评估模型在另一个数据集上的使用性能。一个独立测试数据集的评估指标(例如准确率、ROC曲线下的面积、平均精确率)是机器学习过程的关键部分,和训练或解释该模型的部分一样重要。但是,当一个隐私训练模型在数据集上进行评估和发布结果时,对于训练过程的隐私保证则不适用于测试数据集。
考虑一种场景——有多家医院合作预测一种疾病的发作情况,但被政策或法律阻止,不能互相分享数据。因此,他们可能会选择使用其中一家医院的数据来创建模型,然后在其他医院测试该模型,以便评估模型的普适性。为了保护自己的患者信息,创建模型的这家医院可能会使用差分隐私算法来建模,然后将该模型分发给其他医院。然后其他医院轮流以各自的患者信息运行该模型,并产生对模型性能的评估,例如评估准确率,或更常用的ROC曲线下面积(AUC)。如果公布了AUC信息,训练中使用过的后续机构的测试数据集则不受任何隐私保护。即使训练和测试数据集来自同一机构,该问题也依然存在。虽然发布评估指标似乎只是一个潜在的泄露有限隐私的缺口,但如果攻击者可以访问该测试数据的子集,那么通过这些指标就可以从ROC曲线重建出患者的数据 [12]。
在本文中,我们的目标是扩大在机器学习中差分隐私的保护范围,以包括对测试数据集的保护,而不是像现有工作中,仅仅保护训练数据集。虽然以前的工作已经研究过相关主题,如差分隐私密度估计[9,18]和参数选择[4],但对于机器学习评估中最常用的指标:准确率、ROC曲线下面积(AUC)和平均精确率(AP),却一直少有关注。我们忽略了对机器学习训练者用真实数据训练的很多过程的隐私方面的考虑,除了在差分隐私中研究这些指标。本文的主要贡献包括对AUC和AP的局部敏感度的推导,以及强调了通过现有方法很容易被隐私化的准确性,特异性等。
从第2部分开始,我们提供了基于混淆矩阵和差分隐私的评估指标背后的原理,如ROC曲线的原理。在第3部分,我们提出了在差分隐私环境下的AUC值和平均精确率的计算机制。最后我们通过第4部分中的几个实验,评估了该计算机制,并在第5部分拓展描述了对称双正态ROC曲线。
2.背景
2.1混淆矩阵和排序指标
对二元分类任务的评估是从混淆矩阵开始的。混淆矩阵描述了模型在测试集中输出正样本或负样本的性能,即通过正样本的个数n和负样本的个数m描述测试集的特征。混淆矩阵中的四个值是真正例(tp)、假正例(fp)、真反例(tn)、假反例(fn)。很多常用的评价指标可以从混淆矩阵中计算出来。例如,准确率是tp tn/n m,精确率是tp/tp fp。
许多模型输出一个概率或评分,由此产生对样本的排序。根据选择哪个值作为阈值,可以产生很多不同的混淆矩阵。为了描述这些评分分类器的性能,一种常见的技术是考虑所有可能的阈值并绘制混淆矩阵之间的权衡指标,如ROC曲线——以真正例率(tp/n)为纵坐标,假正例率(fp/m)为横坐标绘制而成。作为单个总结指标,ROC曲线下的面积经常被使用。
统计学上对ROC曲线下面积(AUC)进行了充分研究,AUC相当于Mann-Whitney U统计量[14]。
(1)
其中xi(1le;ile;m)是在测试集中负样本的分数, yj(1le;jle;n)是正样本的分数,Ⅱ是指示函数。注意xi和yj都不需要排序。
我们研究的另一个指标是平均精确率(AP),它在信息检索中很常用,当n/m为常数且n m→infin;时,等同于精确率-召回率曲线下的面积 [11]。 AP是在所有召回值下的精确值的平均值。我们使用以下公式:
(2)
其中xi和yj与上一公式的相同,另外,该公式假设所有的yj(不是xi)是排过序的。
当计算等式(1)和等式(2)时,我们假设分配给正样本和负样本的评分没有任何联系。如果有联系,我们会进行完整排序,将所有的负样本放在正样本之前,以避免过高估计曲线和面积。
2.2差分隐私
差分隐私是一种保证了任何一条记录的存在或不存在都不会显著改变算法输出结果的隐私机制。因此,对于任何一条记录,攻击者只能获取到非常有限的信息。更确切地说,对于任意两个数据库D,D#39;isin;D,设d(D,D#39;)是两个数据库之间内容不同的记录数,差分隐私要求,算法在任何一对相邻数据库中都输出相同结果(d(D,D#39;)= 1)的概率受制于一个常数比。
定义1((ε,delta;)-差分隐私[6]):对于输入数据库D,随机算法f:D→Range(f)是(ε,delta;)-差分隐私,当且仅当对任何的Ssube; Range(f)和任何数据库D#39;,有下式,(其中d(D,D#39;)= 1)
(3)
当delta;= 0时,满足了更强的ε-差分隐私。
为确保差分隐私,我们必须计算需要隐私化的函数的敏感度。在这里,敏感度指的是任意一对相邻数据库的输出结果之间的最大差异(不是性能指标tp/n)。
定义2(全局敏感度[6]):给定一个函数f:D→R,f的敏感度为:
(4)
这被称为全局敏感度是因为对任意一对数据库而言,这是f中最差的变化范围,能将其与局部敏感度区分开来,在定义3中正式介绍。
使用拉普拉斯噪声以扰动任何对真实值的查询,给出以下结果:
定理1(拉普拉斯噪声[6]):给定函数f:D→R,下式
(5)
满足差分隐私。
以上获得差分隐私的方法使用了最坏情况下的全局敏感度来缩放噪声。对于某些函数,如中位数函数,其全局敏感度可能很大,但大多数相邻数据库的输出结果之间的差异非常小。这启发了Nissim等人的工作[13],探讨了局部敏感度的用途。
定义3(局部敏感度[13]):给定一个函数f:D→R,D对于f的局部敏感度为
(6)
局部敏感度不同于全局敏感度,因为局部敏感度的参数由每个特定的数据库D决定,而全局敏感度适用于所有数据库,即GSf =maxD LSf (D)。
局部敏感度不能被直接用于产生差分隐私,但可以使用其平滑上限产生差分隐私。
定义4(beta;-平滑敏感度[13]):对于beta;gt; 0,f的beta;-平滑敏感度为
(7)
使用beta;-平滑敏感度和类柯西噪声或拉普拉斯噪声可以产生差分隐私,如下定理所述。
定理2.(将噪声校准到平滑边界敏感度,一维情况[13]):令f:D→R为任何实值函数,S:D→R为f的beta;-平滑敏感度,则有
1.如果beta;le;ε/2(gamma; 1)且gamma;gt; 1,算法f#39;(D)= f(D) 2(gamma; 1)S(D)eta;/ε满足ε-差分隐私,其中eta;从密度为h(z)prop; 1/1 | Z |gamma;的分布中采样。注意,当gamma;= 2时,eta;是从标准柯西分布中采样的。
2.如果beta;le;ε/2 ln(2/delta;)且delta;isin;(0,1),算法f#39;(D)=f(D) 2S(D)eta;/ε满足(ε,delta;)-差分隐私,其中eta;〜Laplace(1)。
3.隐私机制
我们假设将分类模型应用于隐私数据库,来评估差分隐私。该模型可以由提交者手工构建,在另一个隐私数据库中以差分隐私方式训练,或在公共数据库上训练。我们的目标是通过使用差分隐私评估函数,确保评估输出不会释放太多关于隐私数据库中的任何特定样本的信息。
我们假设数据库的大小n m是公开的信息,但n和m的具体值非公开。尽管允许n和m公开将使我们对AUC和AP的分析变得更简单,更容易满足诱发性相邻隐私保护[10],但我们相信保证正样本和负样本的数量隐私是隐私模型评估的一个重要方面。如果n和m是公共信息,在差分隐私保护下的最坏情况时,攻击者在数据库中只有一条记录不知道,就能够简单地推断出最后一条记录是正样本还是负样本。在预测任务中,由于分类标签往往是最敏感信息,公布正样本和负样本的准确数量将大大削弱隐私框架所提供的安全性。图1的ROC曲线显示了两个相邻数据库的差异。
什么类型的评估指标可以在这个隐私框架下发布?任何基于单一混淆矩阵的度量指标都可以采用标准方法保密,如用于差分隐私计数的拉普拉斯噪声[5]。因此,差分隐私的准确性,召回值,特异性,精确度等都可以得到。我们关注的是更复杂的指标,如AUC,这些指标不仅对分类器评估更有效[15],还对隐私保护下的计算更具挑战性。
图1.只有一个样本和评分不同的相邻数据库D和Drsquo;的ROC曲线。其中D包含15个正样本和15个负样本,Drsquo;包含16个正样本和14个负样本。D和Drsquo;的AUC分别为0.796和0.772。
3.1重新识别AUC
前人的工作已经证明了由于ROC曲线中的数据点存在易损性,需要重新确定ROC曲线[12];我们延伸这一点到AUC来证明,即使已有总体指标,但该问题仍然存在。考虑确定一个给定了完整数据集的AUC的例外样本的分类问题,此时攻击者可以访问除了一个点外所有的数据,而且还知道完整数据的AUC。其目标是预测最后一个样本是正分类还是负分类。注意,我们假设攻击者不知道目标样本的排序位置。
攻击者的算法是尝试将目标样本放置在排序中的每个位置,并分别假设其为正样本和负样本,然后计算相应的AUC。与公开的整个数据集(或相关情况下出现频率最高的类别)的AUC的结果最相近的样本就被认为是这个样本的类别。这种方法类似于考虑了一个样本对AUC的影响的差分隐私假设。但是,这并不是最坏的情况分析,而是关于识别目标样本的一个属性值,也不仅仅关注它是否存在于原始数据中。
图2显示了给定UCI成人数据集的一个样本数据,攻击者猜测该目标样本的分类的能力。一种可以用来干扰这种攻击的探索式方法是限制公布的AUC的小数位数更少,如图所示。当AUC被赋予很多的小数位时,攻击者有很高概率复原其分类值,尽管数据点增多时概会降低。舍弃AUC值的小数位的确会减少攻击者的成功率,但代价是舍弃了精确率。
图2.给定一个包含了一半正样本和一半负样本的数据集AUC值,当AUC保留特定小数位数时,攻击者正确识别一个未知样本分类的成功率。0.5处的黑色水平线代表随机猜测分类的成功率。
3.2 AUC
在计算AUC的敏感度时,每个样本都多次被计算到总和中。当一个样本的分类改变时,相邻数据集之间的参数1/ nm有变化,AUC的敏感度会更复杂。幸运的是,我们可以将相邻数据集之间的AUC的最大变化限制为找到局部敏感度。
定理3.AUC的局部敏感度是
(8)
其中n和m分别是测试集中的正负样本数。
我们在此提供一个简短的证明大纲,完整的证明可以在附录中找到。为了计算AUC,考虑数据库中每一条记录的排序和分类标签就足够了。从公式(1)中的xi和yj以及指示函数就可以得到。因为大多数记录没有改变,所以公式(1)的双层求和中的大部分指示函数保持不变。因此我们可以将公式(1)分解成有变化的部分,和不适合四种可能情况中的每一种情况的部分。然后我们将两个数据库中可能的最大差异限制在公式变化的部分中,以得到局部敏感度。
局部敏感度本身不适合创建差分隐私算法,因为在相邻数据库中增加不同数量的噪声会泄漏信息[13]。所以,我们使用确保了噪声数量为ebeta;的beta;-平滑敏感度。
定理4. AUC的beta;-平滑敏感度是
(9)
附录中给出的证明是对于beta;-平滑敏感度定义的直接应用。图3显示了由公式(9)给出的平滑敏感度,其中几个特定的beta;值证明了beta;越高,敏感度越低或数据集越平衡的优点。
根据AUC的beta;-平滑敏感度,适当缩放的柯西噪声可满足ε-差分隐私,适当缩放的拉普拉斯噪声可满足(ε,delta;)-差分隐私,如定理2所述。由于AUC的范围是[0,1],我们需要截断输出。但截断不会破坏差分隐
全文共13402字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[15724],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。