大数据和数据分析如何改变我们对城市的理解 - 彭博社
Richard Florida
2015年中国贵阳大数据博览会。路透社工作人员 / 路透社关于城市与数据之间关系的炒作从未缺少,尤其是所谓的大数据。对于大量科技公司、城市,甚至越来越多的城市主义者来说,数据承诺解决各种城市问题,从预测性警务到改善交通流量,再到促进能源效率。
新型数据的一个更大潜在角色在于帮助研究人员和政策制定者更好地理解城市和社区是如何成长和演变的——但前提是要正确使用。
新数据的真正令人兴奋的用途
越来越多的研究人员正在利用来自互联网来源的数据,如谷歌、推特和Yelp,来开发对城市和城市变化的新见解。社会学家罗伯特·桑普森和杰基琳·黄使用街景图像来研究种族在城市更新和社区转型过程中的作用。同样,来自英国空间经济研究中心的一项研究利用Flickr上的地理标记照片来确定伦敦和柏林的城市化水平。来自Uber和Lyft的移动数据——甚至出租车——也在几项最近的研究中被使用,我的CityLab 同事 劳拉·布利斯和前同事埃里克·贾夫进行了详细记录。来自房地产网站如Zillow和Trulia的数据也被用来 分析各社区、城市和大都市区的房价趋势。
彭博社城市实验室对于租户来说,人工智能驱动的筛选可能成为住房的新障碍高盛测试家具销售商Wayfair的债务需求新泽西-纽约市通勤者在最新的交通混乱中被困在公交车和火车上在创纪录的炎热夏季之后,空调强制要求的压力增加其他研究使用了Yelp的评论数据来研究城市更新和不平等的城市消费模式。一项研究利用Yelp评论揭示了布鲁克林的城市更新与种族之间的联系。另一项NBER研究利用Yelp数据来了解民族和种族隔离如何影响纽约市的消费水平。
Twitter数据已被用于绘制区域偏好和行为模式。一项研究来自牛津互联网研究所,绘制了在线内容和思想在文化之间的流动。地图博客漂浮的羊使用Twitter、谷歌和维基百科的数据绘制了从啤酒和比萨到大麻、保龄球和脱衣舞俱乐部的所有内容。而我自己的团队使用了MySpace的数据来追踪美国和世界各地流行音乐类型的主要中心。
新的数据分析的好坏取决于我们提出的问题和生成的理论,以更好地理解它们。最近,一支 意大利研究团队结合了来自Foursquare和OpenStreetMap等多个来源的数据,以测试简·雅各布斯关于城市活力和多样性的理论,在六个意大利城市进行研究。他们的研究证实了雅各布斯关于短街区、混合土地使用、步行可达性、人才密集和城市公共空间重要性的许多关键见解。
除了来自网站的数据,卫星数据提供了在全球城市中积累系统性和可比较数据的可能性(之前几乎没有可用)。几项研究(包括我自己的研究)使用卫星数据来获取全球城市和大都市的经济产出。而一项 2012年的研究在 美国经济评论中使用卫星的光 emissions 作为全球城市空间组织和经济规模的代理。虽然这些数据存在相当大的局限性,但它至少提供了全球城市整体规模和经济规模的粗略估计。
准确描述“大数据”
并非所有来自新来源的数据都符合“大数据”的标准,这个名称本身就意味着真正庞大的信息量。伦敦经济学院的马克斯·内森将实际的大数据分为三个关键类别:来自Yelp、Twitter或Google等网站的互联网数据和其他商业数据、由城市或城镇收集的政府资助数据,以及人口普查和相关数据。一个例子是 2014年NESTA研究,该研究使用来自伦敦公司Growth Intelligence的大数据来绘制英国信息和技术企业的模式。另一个例子来自于一项 即将发表的研究,该研究在 美国社会学杂志中使用来自数百万个311服务请求的数据,以研究不同族裔居民之间的邻里冲突。
根据内森的说法,大数据可以从“四个V”的角度来理解:多样性、体量(数百万或数十亿的观察)、速度(实时数据)和真实性(原始数据)。实际的大数据通常需要数据分析方法,如机器学习,来处理和从如此庞大的信息中提取意义。例如,卡内基梅隆大学计算机科学学院的持续 Livehoods项目 使用机器学习分析Foursquare上的1800万次签到,以确定八个不同城市的结构和特征。当适当使用时,大数据和新的数据分析可以帮助研究人员识别城市结构和模式,而传统的数据和方法可能无法单独揭示。
一个特别好的大数据使用例子是哈佛和麻省理工学院研究人员的 最近NBER研究,该研究利用计算机视觉更好地理解收入和房价的地理差异。尽管论文涵盖了很多内容,但也许最有趣的部分涉及使用谷歌街景预测2007年至2014年间波士顿和纽约的收入水平和房价。该研究将12200张纽约市的图像和3600多张波士顿的图像与2006-2011年美国社区调查的中位家庭收入和房屋价值数据联系起来。然后,它考察这些图像中显示的积极物理属性(即大小和绿地等)在多大程度上吸引了更富裕的居民,并预测收入和房价。
最终,研究发现“图像在街区组层面上可以比种族或教育更好地预测收入。”研究指出,大数据的一个关键目的在于帮助阐明较小地理区域在我们城市经济中的作用,而这些在传统人口普查数据中更难以获取。作者总结认为,大数据提供了“某种希望,即谷歌街景和类似的预测将使我们更好地理解全球财富和贫困的模式。”
问题和局限性
虽然大数据最终可能能够推进我们对城市的观察和理论,但越来越多的学者呼吁在使用时保持谨慎。一个2014年研讨会汇集了大约40位领先的城市社会科学家和数据用户,确定了围绕大数据的六个关键问题,涵盖数据质量和兼容性、新分析技术的使用,以及隐私和安全问题。正如研讨会总结所指出的:
开发与新方法和数据相配合的理论至关重要,但往往被搁置。工程和控制理论(或没有理论的大数据)在有可测量结果、简单政策进行修正以及反应时间足够快以便在仍然适当时实施修正的情况下运作良好。在城市中,这是优化服务交付所使用的过程。但对于具有长时间跨度的复杂系统,如大多数社会系统,这一理论并不适用。
换句话说,大数据和新的数据分析仅仅取决于我们提出的问题和生成的理论,以更好地理解它们。无论它们多么强大,新的数据来源和分析技术都无法真正替代对城市的细致人类推理。当然,真正的力量在于使用这些新工具来检验和深化前沿城市理论的洞察。我的希望是,我们最终能够以某种方式将它们结合起来,加深我们对社区、城市和城市区域的“城市基因组”的理解。