谷歌街景可以揭示你所在社区的很多信息 - 彭博社
Linda Poon
这张布鲁克林社区的图片中的汽车可以揭示出很多关于那里的居民的信息。谷歌街景如果你在城市中走动,看到路边停着的皮卡车比轿车多,那么大多数居民很可能投票给共和党。这听起来像是另一个刻板印象——共和党人开着皮卡,而民主党人则更喜欢丰田普锐斯。但也许这其中确实有一些真相。
这就是斯坦福大学的一组人工智能研究人员通过仅仅基于谷歌街景汽车图像来预测人口统计和投票模式所发现的。
彭博社城市实验室土耳其计划在伊斯坦布尔增加出租车以应对投诉代际住房可以帮助老年人对抗孤独伦敦的奥运遗产如何重塑被遗忘的东区随着农村医院关闭产科病房,城市医院也在跟随研究人员利用来自200多个城市的约5000万张街景图像,开发了两个算法。一个算法检测并将汽车分类为2600多种不同类别,基于品牌、型号、车身类型和年龄等因素。(考虑到许多图像模糊不清,这真是一个了不起的成就。)然后,利用来自人口普查和2008年选举的数据,他们训练了另一个算法,以根据存在的汽车预测不同区域和选区的收入水平、种族构成、教育程度和投票模式。
在这些发现中:丰田和本田汽车与亚洲社区有很强的相关性,这与调查结果一致,这些调查表明亚裔车主更喜欢亚洲品牌而非美国品牌。同时,黑人社区与别克、老斯莫比尔和克莱斯勒汽车的关联更强。皮卡车、大众汽车和阿斯顿·马丁的存在则表明主要是白人社区。
当研究人员将美国的预测人口地图与人口普查数据进行比较时,他们发现他们的估计出奇地准确。PNAS这肯定不是完美的。“它可能永远不会是100% [准确],”研究人员之一的乔纳森·克劳斯说。但当他和他的团队将他们模型的预测与美国社区调查的实际数据进行比较时,他们的估计并没有偏差太大。该模型准确地确定华盛顿州西雅图的白人比例为69%,非裔美国人主要居住在南部社区。同样,该模型在预测佛罗里达州坦帕最低收入的邮政编码位于南端时也是正确的。
更令人惊讶的是,甚至对研究人员自己来说,皮卡车与轿车在一个选区(约1000名居民的区域)中的比例准确地决定了居民的政治倾向是民主党还是共和党。在亚利桑那州的吉尔伯特,该模型正确识别了60个选区中58个的投票模式,准确率为97%。总体而言,该模型表明,拥有更多轿车的城市在下一次选举中投票支持民主党的概率为88%,而拥有更多皮卡车的城市则更有82%的可能性投票支持共和党。
不过,克劳斯说,这并不是为了验证刻板印象。“我们并不是在谈论个体层面,所以并不是说你开一辆皮卡车,因此你就是共和党人,”他告诉CityLab。“这些研究是基于对整个选区甚至更高层次的聚合。”更重要的是,他强调,这些并不是因果关系:“更确切地说,我们看到这些事情是同时发生的。”
此外,考虑到几个县在去年的选举中 翻转 了他们的支持,团队无法确定如果使用更近期的街景图像和2016年的投票数据,结果会是什么样子。(本研究中使用的街景图像来自2013年。)
研究人员将他们预测的投票模式地图与2008年人们实际投票的地图进行了比较。在(B)下,左侧的地图显示了实际投票模式,右侧的地图显示了预测的投票模式。PNAS像这样的机器学习的使用对大规模调查来说是一个潜在的游戏规则改变者,尽管这并不是没有风险——这一点可以通过前华尔街分析师凯西·奥尼尔在她的书中最好的描述 数学毁灭武器:
推动数据经济的数学驱动应用是基于易犯错误的人类所做的选择。这些选择无疑是出于良好的意图。然而,许多模型将人类的偏见、误解和偏见编码到越来越多管理我们生活的软件系统中……而且它们往往惩罚我们社会中的穷人和被压迫者,同时让富人更富。
这并没有被研究团队和日益增长的人工智能社区忽视。“在这个领域,人们越来越认识到你的算法的偏见程度仅取决于你提供的数据,”克劳斯说。“错误的使用我们研究的方法是将其应用于个体层面,这样做是危险的。”
但它可以帮助像美国社区调查这样的事情,研究人员指出,进行这项调查每年花费政府超过2.5亿美元。克劳斯和他的团队认为,随着人工智能技术的进步,它不仅可以减少劳动力和成本,更重要的是,减少时间滞后。
“我认为[这个模型]的准确性还不足以取代手动过程,但如果在收集调查数据之前应用这样的东西,你可以获得更及时的信息,尽管它会有些嘈杂,”他说。“也许你可以用这个来找出哪些地区变化很快,或者哪个社区在恶化,”这给政策制定者提供了提前实施正确举措的机会。
随着社会的变化(比如,千禧一代停止驾驶或城市终于找到 如何实现无车化)像他的模型可以被训练来分析其他可能具有指示性的方面,比如建筑风格,或种植的树木类型,甚至可能是行人——尽管他也完全意识到那里的隐私问题。