新書推薦:
《
礼记训纂 全2册 十三经清人注疏
》
售價:HK$
755
《
可持续盈利 可再生战略变革释放企业发展潜力(剖析当下环境挑战,探讨企业应对策略,推动企业可持续盈利)
》
售價:HK$
347
《
拒斥死亡(文明本质上是一场抵御死亡恐惧的集体英雄主义骗局)
》
售價:HK$
356
《
牛津通识读本·世相I(中英双语 全五册)收录《全球化面面观》《后殖民主义与世界格局》《国际移民》《人
》
售價:HK$
995
《
什么是教育 “轴心时代”提出者雅斯贝尔斯毕生教育思想精华
》
售價:HK$
347
《
创建强势品牌(典藏版)
》
售價:HK$
607
《
美绘聊斋志异
》
售價:HK$
611
《
启微·红帆:中国东南诏安湾的港口、船货与海洋遗产
》
售價:HK$
500
編輯推薦:
如今,许多组织分析和共享有关个人的大型敏感数据集。无论这些数据集涵盖医疗保健详细信息、财务记录还是考试成绩,组织都越来越难以通过去识别化、匿名化和其他传统的统计披露限制技术来保护个人信息。这本书介绍了差分隐私(DP)如何提供帮助。 书中解释了这些技术如何使数据科学家、研究人员和程序员能够运行统计分析,隐藏任何单个人的贡献。你将深入了解基本的DP概念,并了解如何使用开源工具创建差异私有统计信息,探索如何评估效用/隐私权衡,并学习如何将差分隐私集成到工作流中。
內容簡介:
差分隐私可以在不泄露数据集中具体个人信息的前提下,准确发布数据集的统计信息。本书详细阐述了差分隐私的理论基础、实际应用以及面临的挑战,覆盖具体算法和数学模型。全书分为三部分:第一部分介绍差分隐私的理论,详细解释了准备数据和执行差分隐私数据发布所需的各个概念;第二部分探讨差分隐私的应用,包括如何查询不同的数据格式(如搜索日志)以及在机器学习算法中添加差分隐私;第三部分则关注从业者需要了解的重要主题,例如理解隐私攻击、设置隐私参数以及部署首次差分隐私数据发布。本书适合数据管理人员、数据技术相关人员、安全领域技术人员等阅读。
關於作者:
伊桑·科恩(Ethan Cowan) 软件工程师,目前是哈佛大学继续教育学院的硕士生,研究兴趣在于伦理学和计算机科学的交叉领域。他还经营着一家数据科学咨询公司,帮助初创公司做出关键的技术决策。玛雅娜·佩雷拉(Mayana Pereira)微软 AI for Good Research Lab 的数据科学家, OpenDP 合作者,研究领域涉及数字安全、网络安全、软件安全和人工智能,以及隐私保护技术在机器学习部署场景中的影响。迈克尔·舒马特(Michael Shoemate) 高级数据隐私软件开发工程师,目前在研究机构TwoRavens工作,开发用于可视化数据和进行统计分析的工具,构建了一组可重用的模块化 UI 组件,以便在 Mithril 中进行快速和同质的前端开发。
目錄 :
目录前言1第一部分 差分隐私的概念第1章 欢迎来到差分隐私的世界111.1 历史111.2 差分隐私之前的数据私有化141.3 案例研究:课堂场景中应用差分隐私技术161.3.1 隐私保护与均值计算161.3.2 隐私泄露的防范机制171.4 相邻数据集:个体退出场景分析191.5 敏感度:统计量的变化范围211.6 噪声注入机制231.7 可用工具概览251.8 总结271.9 练习28第2章 差分隐私的基本原理292.1 隐私保护的直观理解302.1.1 隐私单元302.1.2 隐私损失312.2 差分隐私的正式化定义322.2.1 随机响应332.2.2 隐私侵犯342.3 差分隐私模型分类362.4 敏感度深度解析372.5 差分隐私机制总览382.5.1 拉普拉斯机制392.5.2 拉普拉斯机制的ε-DP证明402.5.3 机制准确性分析412.5.4 学生家庭类型统计案例412.5.5 指数机制432.6 差分隐私查询的组合性442.7 差分隐私后处理不变性452.8 使用SmartNoise实现差分隐私查询472.8.1 示例1:差分隐私计数472.8.2 示例2:差分隐私求和492.8.3 示例3:单数据库多查询处理492.9 总结502.10 练习51第3章 稳定变换523.1 距离度量533.1.1 数据集相邻性553.1.2 有界差分隐私与无界差分隐私563.2 c-稳定变换的定义563.2.1 变换案例:双重变换573.2.2 变换案例:逐行变换583.3 稳定性是敏感度的充要条件593.3.1 变换案例:计数603.3.2 变换案例:未知大小求和623.4 域描述符633.5 链式变换653.6 度量空间653.7 稳定性的定义663.7.1 变换案例:已知大小求和673.7.2 变换案例:已知大小的均值683.7.3 变换案例:未知大小的均值693.7.4 变换案例:调整大小703.7.5 标量聚合器回顾713.8 向量值聚合器713.8.1 向量范数、距离和敏感度723.8.2 有界范数数据聚合733.8.3 分组数据753.9 实践763.10 总结773.11 练习77第4章 隐私机制794.1 隐私度量804.1.1 隐私度量:最大散度804.1.2 度量、散度与隐私度量814.2 关于隐私机制824.2.1 随机响应机制834.2.2 向量拉普拉斯机制844.2.3 指数机制864.2.4 分位数评分变换874.2.5 噪声最大值报告机制934.3 交互式查询处理954.4 高于阈值964.4.1 数据流处理964.4.2 在线隐私选择964.4.3 流数据稳定性变换984.5 总结994.6 练习99第5章 隐私的定义1015.1 隐私损失随机变量1025.2 近似差分隐私1035.2.1 截断噪声机制1055.2.2 建议-测试-发布1075.2.3 高级组合定理1095.3 高斯机制1125.4 Rényi 差分隐私1145.4.1 零集中差分隐私1175.4.2 基于矩的隐私度量强度分析1175.5 有界范围机制1185.6 隐私损失分布1195.6.1 数值组合1215.6.2 特征函数1225.7 假设检验解释1235.8 总结1255.9 练习125第6章 组合范式精要1276.1 链式处理1286.1.1 示例:边界估计1296.1.2 示例:B树结构1316.2 隐私度量转换1346.3 组合1366.3.1 自适应组合1366.3.2 里程表和过滤器1386.4 分区数据处理1406.4.1 示例:对寻求庇护者的数据进行分组1416.4.2 并行组合1436.4.3 示例:多分位数计算1446.5 隐私增强1456.5.1 通过简单随机抽样实现隐私增强1466.5.2 通过泊松抽样实现隐私增强1476.5.3 通过混洗实现隐私增强1476.6 抽样与聚合1476.7 隐私候选集选择1486.8 总结1506.9 练习150第二部分 差分隐私在实践中的应用第7章 隐私单元深度解析1557.1 隐私层级体系1567.2 浏览器日志示例:朴素事件级保证1587.3具有无界贡献的数据集1607.4 数据集截断1617.4.1 蓄水池抽样1627.4.2 分区数据截断1647.4.3 医院就诊示例:偏差-方差权衡1657.5 截断阈值的隐私估计1717.6 未知域名问题1747.7 截断操作的适用场景1757.7.1 稳定性分组变换1767.7.2 稳定性并集变换1767.7.3 稳定性连接变换1767.8 总结1777.9 练习177第8章 差分隐私统计建模1808.1 隐私推理1808.2 差分隐私的线性回归1818.2.1 充分统计量扰动1818.2.2 隐私Theil-Sen估计器1848.2.3 目标函数扰动1868.3 算法选择策略1888.4 差分隐私朴素贝叶斯1898.4.1 分类朴素贝叶斯1908.4.2 连续朴素贝叶斯1918.4.3 机制设计方案1918.4.4 示例:朴素贝叶斯实现1928.5 隐私决策树1938.6 总结1958.7 练习195第9章 差分隐私机器学习1979.1 机器学习模型隐私保护必要性1979.2 机器学习术语回顾1989.3 差分隐私梯度下降1999.4 随机批处理2029.4.1 并行组合应用2029.4.2 通过子抽样实现隐私增强2039.4.3 超参数调优2059.5 隐私聚合教师模型2079.6 使用PyTorch训练差分隐私模型2099.7 总结2139.8 练习213第10章 差分隐私合成数据21410.1 合成数据的定义21410.2 合成数据应用场景21610.3 基于边缘分布的合成器21610.4 图模型方法22010.5 GAN合成器22210.6 总结22510.7 练习225第三部分 差分隐私的部署第11章 隐私攻击防护22911.1 隐私侵犯的定义23011.2 针对表格数据集的攻击23111.2.1 记录链接攻击23111.2.2 单独识别攻击23311.2.3 差分攻击23411.2.4 方程系统重构攻击23511.2.5 追踪攻击23811.2.6 k匿名漏洞23911.3 机器学习模型攻击24111.4 总结24211.5 练习243第12章 数据发布的隐私损失参数24412.1 抽样策略24512.2 元数据参数24612.3 隐私损失预算分配24612.4 决策辅助实践24712.4.1 代码手册与数据标注24712.4.2 上下文规范参数化24812.5 在探索性数据分析的背景下进行决策25212.6 自适应隐私参数选择25412.7 透明参数选择的潜在风险25412.8 总结25512.9 练习256第13章 规划你的第一个差分隐私项目25713.1 进行差分隐私部署须考虑的事项25813.1.1 部署差分隐私的频率25813.1.2 组合与预算管理25813.2 差分隐私部署清单25913.3 示例项目:课堂场景回归26113.4 真实数据发布规范26313.4.1 领英经济图谱案例26413.4.2 微软宽带数据案例26413.5 差分隐私发布表:发布详情标准26413.6 结束语265扩展阅读267附录269
內容試閱 :
前言在这本书中,你将学习数学上严格的隐私定义,即差分隐私(Differential Privacy,DP)。差分隐私可以在不泄露数据集中具体个人信息的前提下,准确发布数据集的统计信息。采用这种分析方法生成的数据集信息发布,称为差分隐私数据发布。本书将向你展示如何设计敏感数据集的数据分析流程,以保证隐私。差分隐私是满足数据隐私需求的首选和值得信赖的解决方案:差分隐私保证对于拥有无限资源(如辅助数据和无限制计算能力)的攻击者而言仍然非常强大。差分隐私保证可以从数据中个体面临的风险的角度进行解释。随着数据发布次数的增加,差分隐私保证的隐私保护效果会逐渐减弱,而不是大幅失效。数据隐私是一个广泛的话题。如果你以前学习过数据隐私,那么你可能了解过如何保护数据库免受黑客攻击或创建加密哈希值,你可能也研究过虚拟专用网络(Virtual Private Network,VPN)和其他防止在线追踪的工具。这些概念侧重于通过不泄露任何有关数据的内容来保证隐私。然而,本书中涉及的隐私概念与隐私保护数据发布相关。隐私保护数据发布的目标是发布关于数据集的信息,而不泄露数据集中特定个体的信息。差分隐私是一种数学上严格定义的隐私保护数据发布方法,专门用于数据集信息的受控发布。隐私是什么?隐私是日常生活中使用的一个术语—想想诸如院子里挂着的“私人财产”标志,或者酒店房门上“请勿打扰”的标牌。人们对于这些标志的含义有一个共识:在第一种情况下,穿过院子被认为是非法侵入(这会让你成为一个不体贴的邻居);在第二种情况下,你希望酒店工作人员不要敲门或进入你的房间,这保证了客人的隐私。请记住,你刚刚看到了两个例子,在这些例子中,一个人可以对其他人建立一个私人领域,但不能对政府这样做。院子里的“私人财产”标志或酒店门上的“请勿打扰”标志肯定不会使搜查令无效。这就引出了隐私这个术语的另一层含义—你应该问:“在什么情况下对谁保密?”隐私的另一个方面与身份识别相关。例如,《健康保险携带和责任法案》(HIPAA)注1保证患者对自己的医疗记录享有合理的隐私权利。显然,黑客入侵医院记录的数据库是对隐私的侵犯。但是,在保护患者隐私的同时,能否发布患者的综合统计信息呢?在本书中,你将学习针对此类敏感数据场景的各种相关技术。为什么选择差分隐私?你可能一看到“差分”这个词就立刻想到了微分方程和导数。虽然这是一个合理的猜测,但从这个意义上讲,差分隐私的概念与微积分并无关联。相反,差分隐私与“差异”的概念相关。此处的“差分”一词实际上指的是在仅有单个个体差异的数据集之间,模糊数据发布的差异。在学习了差分隐私的理论基础后,你将掌握多种差分隐私技术,并了解如何将它们应用于实践中。有了这些知识,你可以将数据工作流程转化为差分隐私数据工作流程,从而分析敏感数据。例如,可以通过修改知名算法以满足差分隐私的要求,从而在敏感数据集上训练机器学习模型。理解差分隐私对算法的约束机制及原因,也将帮助你识别隐私攻击的漏洞。差分隐私的基础理论在众多算法中得以实现,而这些算法又通过易于理解的例子进行展示。本书中给出的诸多例子调查了在多种情境下有效的差分隐私数据分析技术。这不仅涉及理解相关算法,你还将深入、直观地理解支撑差分隐私的理论以及它所提供的保证。从实现的角度来看,你还将学习如何构建常见的差分隐私数据分析流程。无论是非差分隐私还是差分隐私的数据分析流程,通常都分解为更简单的模块化部分,这些部分通常是可以互换的。尤其是差分隐私流程,通常被建模为一系列稳定的变换、一个隐私机制,然后进行后处理。要构建此流程,你需要知道想要进行的查询、保护隐私所需的扰动以及获得最终结果所需的后处理步骤(扰动和后处理将在第2章介绍)。在应用差分隐私时,你将面临隐私与实用性之间的权衡。虽然可以通过精心设计的算法来让这种权衡变得更加灵活,但最终你的算法需要在隐私和实用性之间找到一个适合你的具体用例的平衡点。这种隐私与实用性之间的权衡主要通过预处理(可能引入偏差)和扰动(引入方差)你发布的数据来满足差分隐私要求。直观地说,添加的噪声越多,你越难以了解统计数据的真实值。本书的结构本书内容自成体系,分为三部分。第一部分介绍差分隐私的定义及理论,详细解释了准备数据和执行差分隐私数据发布所需的各个概念。第二部分探讨了差分隐私的应用,包括如何查询不同的数据格式(如搜索日志)以及在机器学习算法中添加差分隐私。第三部分则关注从业者需要了解的重要主题,例如理解隐私攻击、设置隐私参数以及如何部署你的首次差分隐私数据发布。第一部分:差分隐私的概念第1章将概述差分隐私的创建背景及原因,并直观地解释了它的工作原理。第2章将定义差分隐私并介绍关键概念。本章旨在帮助读者理解差分隐私背后的数学原理,以及它为何能提供强大的隐私保证。第3章将定义稳定变换的概念。稳定变换是差分隐私数据分析的核心工具,因为它几乎涵盖了整个数据处理过程。稳定变换还为深入理解差分隐私机制奠定了基础。第4 章将介绍各种差分隐私机制。隐私机制提供了实质性的隐私保证,这也激发了人们对差分隐私的应用。本章将涵盖本地差分隐私机制、输出扰动机制、隐私选择机制以及数据流机制。第5章将讨论纯差分隐私的放宽条件,以及在这些放宽条件下可能实现的多种隐私机制。本章将进一步加深你对隐私损失的理解,使你在回答众多查询时能够实现更严格的隐私保证。第6章将展示如何从更简单的隐私机制构建出更复杂的隐私机制。用于组合这些机制的工具被称为组合器,它们利用了差分隐私算法中固有的模块化特性。第二部分:差分隐私在实践中的应用第7章将第一部分介绍的概念应用于端到端的数据发布。尤为重要的是,隐私单元必须具有实际意义,并且即使在无限贡献的情况下,隐私单元也必须保持受保护状态。第8章将介绍如何将差分隐私应用于线性回归和分类模型。拟合模型的方法多种多样,每种方法都有它自身的优缺点。第9章将探索机器学习模型的隐私训练技术和隐私推断技术。第10章将介绍用于生成合成数据的差分隐私算法。本章将解释差分隐私合成数据生成算法的主要内容,以及它们的用途和局限性。第三部分:差分隐私的部署第11章将展示可用于侵犯数据集中个人隐私的隐私攻击。第12章将强调差分隐私在实际应用中的重要方面,包括如何设置隐私损失参数。第13章将重点阐述差分隐私数据发布部署中的重要步骤,对本书中所学的所有内容进行总结。如果你对差分隐私完全陌生,那么我们建议你先重点学习第1章和第2章,待你熟悉相关概念后再继续深入学习。在这些章节中,你将学习差分隐私的基本术语,并为本书后续章节中更高级的概念的学习做好准备。进一步的阅读顺序关系见图P-1。图P-1:章节依赖关系图本书中使用的规范本书中使用以下排版约定:斜体(Italic)表示新的术语、URL、电子邮件地址、文件名和文件扩展名。等宽字体(Constant width)用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。等宽粗体(Constant width bold)表示应由用户直接输入的命令或其他文本。等宽斜体(Constant width italic)表示应由用户提供的值或由上下文确定的值替换的文本。该图示表示一个提示或建议。该图示表示一条普通注释。该图示表示警告或注意事项。示例代码可以从https://oreil.ly/HODP_GitHub下载补充材料(示例代码、练习、勘误等)。如果你有技术问题或在使用代码示例时遇到问题,请发送电子邮件至bookquestions@oreilly.com。你可以通过ethan@lakeside.tech联系作者。这里的代码是为了帮助你更好地理解本书的内容。通常,可以在程序或文档中使用本书中的代码,而不需要联系O’Reilly获得许可,除非需要大段地复制代码。例如,使用本书中所提供的几个代码片段来编写一个程序不需要得到我们的许可,但销售或发布O’Reilly的示例代码则需要获得许可。引用本书的示例代码来回答问题也不需要许可,将本书中的很大一部分示例代码放到自己的产品文档中则需要获得许可。非常欢迎读者使用本书中的代码,希望(但不强制)注明出处。注明出处时包含书名、作者、出版社和ISBN,例如:Hands-On Differential Privacy: Introduction to the Theory and Practice Using OpenDP,作者Ethan Cowan、Michael Shoemate和Mayana Pereira,由O’Reilly出版,书号为978-1-492-09774-7。如果读者觉得对示例代码的使用超出了上面所给出的许可范围,欢迎通过permissions@oreilly.com联系我们。O’Reilly在线学习平台40多年来,O’Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。如何联系我们对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。美国:O’Reilly Media,Inc.1005 Gravenstein Highway NorthSebastopol,CA 95472中国:北京市西城区西直门南大街2号成铭大厦C座807室(100035)奥莱利技术咨询(北京)有限公司本书中文版的勘误内容,请发送电子邮件至errata@oreilly.com.cn。本书配套网站https://oreil.ly/hands-on-diff-privacy上列出了勘误表、示例以及其他信息。关于书籍和课程的新闻和信息,请访问我们的网站http://oreilly.com。我们在LinkedIn上的地址:https://linkedin.com/company/oreilly-media我们在YouTube上的地址:https://youtube.com/oreillymedia致谢本书的出版离不开以下读者的反馈和宝贵意见:Salil Vadhan、Christian Covington和Anderson Nascimento。感谢我们的O’Reilly审稿人Curtis Mitchell和Aileen Nielsen的支持。特别感谢Jayshree Sarathy贡献她深厚的差分隐私知识,并与我们合作完成第12章。在此写作过程中,感谢来自微软的Joshua Allen、Juan Lavista、Rahul Dodhia和Kevin White的大力支持。感谢Mengyuan Cai女士给予的大力支持。特别感谢Raman Prasad自始至终对本书的支持。感谢Corbin Collins、Kristen Brown及O’Reilly的全体工作人员!