我们会看到一个更私密的,但不太有用,人口普查?

人口普查数据可能是非常敏感的 - 这不仅仅是有多少人住在一个​​社区,一个城镇,州或全国。每10年,人口普查局 询问人物 ages,种族和种族背景,对他人的个人关系,他们生活在一起。这是许多人不与邻居或同事分享的信息, 减少联邦政府.

不相信人口普查局保证他们的数据和安全的人将是 不太可能如实回答 – or answer at all.

联邦法律律师及其员工 与任何人共享数据包括其他政府机构,如警察和美国国税局。人口普查局正在采取新的步骤来保护2020年人口普查数据。

人口普查数据只能作为统计数据收集,但在这么多公司正在收集的年龄 关于人的数据如此之多甚至匿名统计数据可能会出现隐私风险。使用这些商业数据中的一些,人口普查研究人员对其数据进行了模拟攻击,并且能够匹配 多达17%的人 谁回应了2010年人口普查。

然而,新的保护正在提高社区倡导者,政府官员和学者的担忧,据称人口普查局正在使用以增加隐私,使得结果不太准确。他们担心更私人的人口普查 可能不太有用.

作为一个 地理学人 谁研究如何制作和使用地理数据,我参与了过去十年的努力 现代化2020年人口普查 并使它更具成本效益。我认为在保护我们的隐私和对基于数据的决策的准确统计数据之间存在平衡的重要性。

政府和经济的引擎

根据宪法条款,人口普查的主要目的是每10年需要它每10年需要发生一次,是 计算生活在每个州的人数,确定每个州的代表房屋的成员应该得到多少。

谈话徽标
本文由尼古拉斯N. Nagle最初出现在谈话中,是一个社会科学空间伙伴网站,在标题下 “人口普查2020将超出您的隐私 - 但价格 accuracy”.

这很容易,可以在不收集或发布任何个人数据的情况下进行。但是,应该达到全国各地家庭的调查呈现出罕见的机会也提出其他问题。所以,从那里 1790年的第一个,人口普查已超过鼻子。

收集的信息 - 包括年龄,种族和民族信息和归属制率 - 有助于确定联邦政府如何分配 支出1.5万亿美元 每年。国家,地方政府,研究人员和企业也依赖于人口普查数据来制定支出计划和分析社区特征。

美国有一个 最准确和可靠的普查 在世界上。由此产生的数据在创造经济繁荣和增长方面发挥了有意义的部分。

数据科学突破隐私保护

人口普查局 - 以及大多数统计分析师 - 曾经认为人们的隐私是通过大量聚集数据来保护人民的隐私。因此,重点是保护隐私 小群体。例如,在特定社区中有两个西班牙裔人,人口普查数据会说有不到三个。

在其他情况下,人口普查局电脑 交换了家庭的数字 在不同的地理区域,将数据混合起来。这些变化很小,并没有对数据的整体准确性进行重大变化。

最近,由于2012年,学术研究确定了在人口普查数据中揭示一个人的私人信息的风险很小, 低至0.04%。但几年后,新的研究 转过那个发现颠倒了.

2017年和2018年,人口普查局发现,一位可以访问商业和公共数据库的数据科学家可以以可能识别的方式与人口普查统计数据相匹配 多达17%的美国人 谁完成了2010年人口普查。

对人口普查官员来说,这种脆弱程度是不可接受的,而且比赛正在开启下一个人口普查的时间更好地保护。

什么是差异隐私?

后 研究和辩论,人口普查局宣布将采用一种名为“差异隐私“保护受访者的数据在2020年人口普查中。

像我这样的官员和学者的挑战之一是该系统很难解释。它如此复杂,即使是发明它的学者, 哈佛计算机科学家辛西娅·博彩,已承认“这是我的梦想 要了解如何真正解释这一点,以便它广泛访问。“

简而言之,差异隐私涉及没有报告完全准确的数字 - 就像“大城市5人是西班牙裔男性” - 而是一个随机数相对靠近准确的数字,如11.这些随机错误使数据更加困难科学家回去弄清楚那个城市的西班牙裔男性可能与特定的公共纪录有关。公众有一些信息,但它不完全准确或完整。

系统非常复杂,因为它必须确保所有随机生成的近似彼此有意义。例如,男性的数量加上女性的数量等于人们的总数。田纳西州的所有县级人口的总和必须等于田纳西州的国家人口。

此外,为了满足宪法要求,每个州的总人口必须完全正确 - 虽然城市和县总数可能在它们中有相当多的随机性。

一个令人不安的班次

故意为数据添加错误的想法是人口普查的戏剧性变化。为了帮助用户了解新方法,人口普查局生产了一个测试数据集,将差异隐私应用于2010年人口普查结果。

我是一群专家之一 分析了测试数据。我们发现的一些是令人放心的:国家人口计数是通过设计完全准确的。和大型人口的估计 - 就像弗吉尼亚州20岁的人数,或洛杉矶的西班牙裔人数 - 相对准确。

但我们发现的大部分都是令人震惊的。小计数通常是不可接受的错误。在最极端的案例中,夏威夷的小kalawao县,距离空中,海或骡子仅可通过空气,海洋或骡子提供 如此多的随机性补充说,它的人口从90到716开始.

我的研究小组的调查结果 在我生活和工作的田纳西州,表明这些错误可能对地方政府产生了大量影响。例如,田纳西州使用人口普查 确定销售,酒精和汽油税多少钱 送回城镇。在典型的一年中,国家每人每人约120美元。

然而,差异隐私的随机性将创建一个虚拟彩票,与城镇接收 每人80至180美元的任何地方,而不是每个人的120美元。对于小型农村社区来说,这可能会有所回报主要街道或是否摆脱全职警察的差异。

其他令人不安 调查结果包括:

  • 始终如一地低于预订的美国原住民数量的数量,
  • 始终如一地不准确地增加农村国会区的人口,
  • 许多统计数据的统计数据可能是难以置信的,就像没有空置的房屋,并且
  • 许多家庭的县比人更多,这是不可能的。

许多专家的一般共识是测试数据,受差别隐私保护, 不适合许多用途,包括州和联邦法律所要求的一些。

时间不多了

人口普查局正在响应专家提出的批评 最近的人口普查报告 承认测试结果为小城镇提供了不可接受的不准确数字,以及居住在保留期间的美洲原住民的计数。但是,返回旧方法不再被讨论为选项。

目前尚不清楚人口普查局如何以可靠的统计数据和合理的隐私保护的方式解开这种混乱。发布小区统计的第一个截止日期是 3月31日,2021年3月31日,当释放国会重新分发数据时。

现在介于之间发生了什么,然后将确定人口普查局是否可以解决问题 - 并说服官员,研究人员和分析师,其解决方案实际上是对人口普查数据所服务的所有其他目的有用。

0 0 投票
文章评级

Nicholas N. Nagle.

Nicholas N. Nagle.博士是田纳西州诺克斯维尔大学教授。他定期教导数量方法和人口地理课程。 Nicholas Nagle的研究中心关于人口调查的设计和分析。

订阅
通知
guest

本网站使用AkisMet减少垃圾邮件。 了解如何处理评论数据.

0 注释
Inline Feedbacks
查看所有评论
0
会喜欢你的想法,请评论。x