公众信任是非常脆弱的:它很难建立,但很容易被摧毁。
图片来源:Bartholomew Cooke/Trunk Archive
2011年,6位美国经济学家破解了教育政策的一个核心问题:从长远来看,优秀教学会对孩子产生多大帮助?
他们从追踪超过1.15万名田纳西州学龄儿童的记录开始。这些儿童是上世纪80年代一项试验的一部分,在5~8岁时被随机分配给教学质量优秀和一般的老师。随后,研究人员从本世纪前10年的联邦纳税申报表估算出这些儿童成年后的收入。此项分析发现,良好的早期教育带来的益处会持续数十年:孩童时代每接受较好教学1年,年收入平均增加约3.5%。其他数据表明,相同个体在大学出勤率、退休储蓄、结婚率和自有住房等衡量标准上也优于同龄人。
这些经济学家的工作在教育政策圈子赢得广泛赞誉。总统巴拉克·奥巴马在2012年的国情咨文中引用了它,以呼吁为教师培训增加更多投资。
不过,对于很多社会科学家来说,最令人印象深刻的事情是这些作者能分析联邦纳税申报表——这是当时只有符合严格限制条件的研究人员才能接触到的、被严密保护的数据集。这使得此项研究成为“行政管理数据”所具有的挑战和巨大潜在威力的象征。行政管理数据是包括纳税申报表、福利救济记录、探访医生和医院的数据以及犯罪记录在内的常规服务提供期间收集的信息。
上述教育研究的主要带头人之一、布朗大学经济学家John Friedman表示,这将行政管理数据集置于社会科学的前沿。“它们不仅使研究人员以新方法解决老问题,还能查明此前完全不可能解决的问题。”
挑战与可能
在过去的几年里,行政管理数据被用于研究从疫苗副作用到邻居对成年后赚钱能力和成功的持久影响等一系列问题。支持者认为,这些丰富的信息源能极大地提升政府衡量诸如提供津贴帮助家庭搬到资源更加丰富的社区等社会事业的实效。
不过,也有人担心,匆忙利用这些数据会对公民隐私造成新的威胁。“我们习惯性认为的保护类型一直基于匿名和知情同意两大支柱。但在这个新的世界中,两者都无法站住脚。”纽约大学经济学家Julia Lane表示。例如,研究人员在2013年发现,他们仅通过把自己的数据和可公开获取到的系谱信息进行对照检录,便能揭开在一项基因研究中按理说应当匿名的参与者身份。
很多人试图寻找在不妨碍研究的前提下解决这些担忧的方法。建议的对策包括设置诸如数据隐私的国际行为规范等政策措施以及在保护隐私的同时允许使用数据的技术方法。Lane认为,关键之处在于,尽管保护隐私有时会使研究人员陷入麻烦,但有必要维护公众信任,让研究工作变得可能。
“数据获取上的困难是一个特征,而不是缺陷。”她说,获取到数据应当很难,但让此类获取方法成为可能也是非常重要的。
隐私之忧
助长这些担忧的,是对网络隐私整体状况日益增加的公众不安。被称为数据代理的私人公司大量存在。它们收集并出售关于网络搜索、网上购物的信息以及其他能被整合得出令人吃惊结论的数据流信息。在一个著名的案例中,美国零售商塔吉特基于一名少女在店里购买的东西推断出她怀孕了,并且开始向她邮寄关于婴儿产品的优惠券。在这些优惠券到达这名少女的家中时,她的父亲才注意到即将到来的外孙。
不过,很多研究人员认为,对于此类数据应当有合法的科学用途。美国人口普查局研究和方法学部助理主任Ron Jarmin表示,人口普查局正尝试利用来自信用卡公司的数据监控经济活动。由美国国家科学基金会资助的科研人员则正在研究如何利用公开的推特帖子追踪诸如失业率等社会现象的趋势。
然而,Lane说,并非每个人都能划分好商业和学术领域。“人们会把关于大数据被用于私人目的来赚钱和被用于研究的担忧混淆在一起。”例如,2014年3月,欧洲议会提议限制私人健康数据在没有特定知情同意情况下的研究用途,以期通过新的数据保护法规显著增强消费者的隐私。而这严重限制了研究人员对此类数据的获取。在来自诸如总部位于英国伦敦的生物医学研究慈善团体惠康基金会等机构的反对后,这一提议很有可能被放弃。不过,它的命运要到2016年法规终稿交付审批时才能变得清晰。
对于隐私担忧的一个解决方法是妥善保管数据,并且严格限制能获取到数据的人。例如,在美国科研数据中心,研究人员不允许将智能手机或闪存驱动器带进他们所使用电脑终端的房间。电脑本身也不含数据,只是远程连接到安全服务器上。
技术答案
计算机专家和密码学家正在试验技术解决方案。一种被称为差别隐私的方法会为一个数据集增加少量变形,从而使对数据的查询在不揭示参与人身份的前提下给出大致准确的结果。不过,研究人员仍在学习如何信任合成数据,因此已发表的关于这一主题的论文在展示此类方法上还有些力不从心。
在任何一种情况下,尽管合成数据可能解决隐私问题,但还是有一些无法忍受数据中任何噪音的研究应用。一个很好的例子是由哈佛大学经济学家Raj Chetty开展的、发现邻居对收入潜力造成影响的研究。Chetty需要追踪特定个体,以证实儿童早期生活的地方和他们赚钱比父母多还是少的能力存在关联。在随后的研究中,Chetty和同事发现,来自资源贫乏社区的儿童搬迁到资源丰富的社区,能提高他们成年后的收入,从而证实了这一因果联系。
安全多方计算是一项使多重数据持有者在不向彼此揭示底层数据的情况下,分析整个数据集的一部分以试图解决隐私问题的技术。只有分析的结果是共享的。
还有一些问题需要技术解决方案,尤其是政府机构面临的一些问题。比如,美国人口普查局想要将公司设立及其活动的内部数据同关于专利的公开数据整合在一起,以分析驱动公司创新的因素。然而,通过将分析中包括的公司和公开专利数据库中的信息进行匹配揭开公司身份要相对容易。Jarmin团队尚未找到一种充分保护隐私的方法。
与此同时,惠康基金会政策主管Nicola Perrin表示,隐私保护的附带结果是在现有研究项目中产生了巨大延迟,包括临床试验和健康评估、审计以及服务研究。负责一项分析糖尿病和心脏病如何影响不同种族人群的大型队列研究——SABRE的研究人员,自2014年3月起一直未收到病人信息的更新。于是,他们冒险向亲人可能已经死去的家庭发送信息请求。“其中的教训在于不要低估公众的担忧。”Perrin说,“公众的信任是非常脆弱的——它很难建立,但很容易被摧毁。”(宗华)
《中国科学报》 (2015-10-08 第3版 国际)
更多阅读