



差分隐私可以在不泄露数据集中具体个人信息的前提下,准确发布数据集的统计信息。本书详细阐述了差分隐私的理论基础、实际应用以及面临的挑战,覆盖具体算法和数学模型。全书分为三部分:第一部分介绍差分隐私的理论,详细解释了准备数据和执行差分隐私数据发布所需的各个概念;第二部分探讨差分隐私的应用,包括如何查询不同的数据格式(如搜索日志)以及在机器学习算法中添加差分隐私;第三部分则关注从业者需要了解的重要主题,例如理解隐私攻击、设置隐私参数以及部署首次差分隐私数据发布。本书适合数据管理人员、数据技术相关人员、安全领域技术人员等阅读。
第1章 欢迎来到差分隐私的世界11
1.1 历史11
1.2 差分隐私之前的数据私有化14
1.3 案例研究:课堂场景中应用差分隐私技术16
1.4 相邻数据集:个体退出场景分析19
1.5 敏感度:统计量的变化范围21
1.6 噪声注入机制23
1.7 可用工具概览25
1.8 总结27
1.9 练习28
第2章 差分隐私的基本原理29
2.1 隐私保护的直观理解30
2.2 差分隐私的正式化定义32
2.3 差分隐私模型分类36
2.4 敏感度深度解析37
2.5 差分隐私机制总览38
2.6 差分隐私查询的组合性44
2.7 差分隐私后处理不变性45
2.8 使用SmartNoise实现差分隐私查询47
2.9 总结50
2.10 练习51
第3章 稳定变换52
3.1 距离度量53
3.2 c-稳定变换的定义56
3.3 稳定性是敏感度的充要条件59
3.4 域描述符63
3.5 链式变换65
3.6 度量空间65
3.7 稳定性的定义66
3.8 向量值聚合器71
3.9 实践76
3.10 总结77
3.11 练习77
第4章 隐私机制79
4.1 隐私度量80
4.2 关于隐私机制82
4.3 交互式查询处理95
4.4 高于阈值96
4.5 总结99
4.6 练习99
第5章 隐私的定义101
5.1 隐私损失随机变量102
5.2 近似差分隐私103
5.3 高斯机制112
5.4 Rényi 差分隐私114
5.5 有界范围机制118
5.6 隐私损失分布119
5.7 假设检验解释123
5.8 总结125
5.9 练习125
第6章 组合范式精要127
6.1 链式处理128
6.2 隐私度量转换134
6.3 组合136
6.4 分区数据处理140
6.5 隐私增强145
6.6 抽样与聚合147
6.7 隐私候选集选择148
6.8 总结150
6.9 练习150
第二部分 差分隐私在实践中的应用
第7章 隐私单元深度解析155
7.1 隐私层级体系156
7.2 浏览器日志示例:朴素事件级保证158
7.3具有无界贡献的数据集160
7.4 数据集截断161
7.5 截断阈值的隐私估计171
7.6 未知域名问题174
7.7 截断操作的适用场景175
7.8 总结177
7.9 练习177
第8章 差分隐私统计建模180
8.1 隐私推理180
8.2 差分隐私的线性回归181
8.3 算法选择策略188
8.4 差分隐私朴素贝叶斯189
8.5 隐私决策树193
8.6 总结195
8.7 练习195
第9章 差分隐私机器学习197
9.1 机器学习模型隐私保护必要性197
9.2 机器学习术语回顾198
9.3 差分隐私梯度下降199
9.4 随机批处理202
9.5 隐私聚合教师模型207
9.6 使用PyTorch训练差分隐私模型209
9.7 总结213
9.8 练习213
第10章 差分隐私合成数据214
10.1 合成数据的定义214
10.2 合成数据应用场景216
10.3 基于边缘分布的合成器216
10.4 图模型方法220
10.5 GAN合成器222
10.6 总结225
10.7 练习225
第三部分 差分隐私的部署
第11章 隐私攻击防护229
11.1 隐私侵犯的定义230
11.2 针对表格数据集的攻击231
11.3 机器学习模型攻击241
11.4 总结242
11.5 练习243
第12章 数据发布的隐私损失参数244
12.1 抽样策略245
12.2 元数据参数246
12.3 隐私损失预算分配246
12.4 决策辅助实践247
12.5 在探索性数据分析的背景下进行决策252
12.6 自适应隐私参数选择254
12.7 透明参数选择的潜在风险254
12.8 总结255
12.9 练习256
第13章 规划你的第一个差分隐私项目257
13.1 进行差分隐私部署须考虑的事项258
13.2 差分隐私部署清单259
13.3 示例项目:课堂场景回归261
13.4 真实数据发布规范263
13.5 差分隐私发布表:发布详情标准264
13.6 结束语265
扩展阅读267
附录269
点击下载