城市数据共享最佳隐私实践指南 - 彭博社
Linda Poon
Kacper Pempel/路透社对于任何城市来说,开放数据是一把双刃剑;最有用的信息也可能是最敏感的。为了帮助官员平衡风险和收益,哈佛大学的研究人员创建了一个 开放数据手册,其中包含最佳实践、成功与失败的案例,以及在开展新数据项目时需要考虑的详细检查清单。
在缺乏明确规定的情况下,城市在发布数据和保护数据方面一直有些随意。官员们在发布看似无害的数据(例如交通信息)后,常常面临公众的反弹,事后才发现,结合其他数据集后,有足够的信息可以追踪个人。网络安全专家称之为马赛克效应,这可能会削弱传统的数据保护措施,如数据匿名化或移除某些标识符。
彭博社城市实验室美国人如何投票导致住房危机加州大学伯克利分校为转学生提供专门建造的校园住所熊队首席警告芝加哥缺乏新NFL体育场的风险罗马可能开始对特雷维喷泉收取入场费尽管倡导者在地方层面推动更开放的政府,且各市正在竞相成为真正的智慧城市,但公共数据的宝藏只会不断增长。即使是联邦政府 也无法避免这一挑战。
2000年的一项研究显示,如何将匿名的健康记录与投票登记记录结合起来,以匹配大多数美国个人的信息。哈佛大学“在这个数据丰富的新世界中,往往不是[威胁]某人获取他们不应访问的数据,而是能够挖掘已经存在的信息,这些信息不应被存储,”报告的主要作者、哈佛大学伯克曼克莱因互联网与社会中心的研究生本·格林说。
该行动计划对市政府的技术官员提出了四项主要建议,每项建议都被分解为,正如格林所说,“你需要知道什么,你需要做什么,然后你该如何做。”
**在风险和价值之间找到平衡:**零风险是不可能的,这一点或许是城市没有足够承认的。但根据研究人员的说法,关键是找到一个官员和公众愿意接受的风险水平。这可以通过在设计任何数据共享程序之前进行彻底的风险收益分析来实现。这意味着要找出脆弱性、潜在威胁及其发生的可能性、影响,以及传统风险缓解措施的局限性。在确定价值时,关键问题是谁将使用这些数据,谁从中受益,以及如何受益。
**在数据生命周期的每个阶段考虑隐私:**该生命周期包括数据收集、维护、发布和退休——当未发布的数据因不再相关而应被移除。城市通常只在数据即将发布时考虑隐私,但格林表示,这些问题应在最初阶段就考虑。这就是说,城市不应收集与项目无关的过量数据,这可能在未来成为脆弱性——例如,在调查路人时记录家庭地址。
制定隐私管理结构:“更大的挑战是发展内部和操作专业知识,并将保护隐私视为开放数据计划的一个重要组成部分,”格林说。由于联邦和州层面上几乎没有、且往往过时的指导方针,发布数据的规则至少应该在城市层面上保持一致。研究人员呼吁城市制定自己的隐私标准,并建立一个正式的数据发布流程。
**保持公众知情:**根据报告中引用的皮尤调查,近80%的美国人对政府监视感到担忧。因此,研究人员强调城市需要与公众互动,通过展示开放数据如何使城市受益来赢得支持,并通过对整个过程的透明度来获得信任。例如,当芝加哥发布超过1亿次出租车行程的数据时,它还发布了一篇详细的文章,说明这些数据是如何准备和修改以保护隐私的——研究人员写道,这一步应该是“常规做法”。
尽管有超过一百页的提示和指导方针,但该手册并没有回答具体问题。例如,它不会告诉城市应该从发布的数据中删除哪些字段,或者在分组数据以保护人们地址时,地理区块应该有多大。格林承认,这在一定程度上是研究人员自身局限性的结果。答案取决于数据的类型,并可能需要通过复杂的计算机建模进行反复试验。
但他表示,“我们不想规定并定义一个城市政府和公众应该拥有的价值。” “我们乐于将决策权留在城市手中。”
您可以在 这里 阅读完整报告。