1月30日消息,据The Verge报道,近年来科技公司掌握了关于人们的大量数据,若它们落入坏人手中,可能带来巨大危险。为了应对这种危险,欧洲颁布了《通用数据保护条例》 (GDPR),给予用户更大的“访问权限”。按照规定,任何公司都应向用户提供收集和托管的个人数据。
此外,这些公司应该以一种便于用户及时阅读的方式提供数据,并提供足够的背景信息,以便用户了解公司是如何收集和使用这些信息的。GDPR的原意是,当用户了解公司掌握了关于其哪些数据,就可以利用它来做出明智的决定,比如决定你是否想提供这些数据,并在他们未经用户同意的情况下收集数据时,让这些公司付出代价。
然而,问题在于,公司在提供这些数据时往往非常吝啬。毕竟,如果它们的服务本质上是“强迫同意”(谷歌最近因此而被罚款5000万欧元),那么它们可能不想让用户轻易看到其收集了多少用户的个人数据。科技记者约翰·波特(Jon Porter)决定测试四家在欧盟运营的最大科技公司提供的“访问权”:苹果、亚马逊、Facebook和谷歌。他的发现表明,虽然用户可以获得原始数据,但实际上却很难理解它们,也很难依据这些数据做出明智的决定。
按照英国数据保护监管机构ICO的规定,公司必须应用户要求提供所有个人数据,即任何与个人相关的已识别或可识别数据。信息必须以“简明、透明、易懂和易于获取的形式,使用清晰明了的语言”,以“常用的电子格式”提供给个人。这听起来很简单,但四大科技巨头是如何做的呢?
最初,波特很容易下载了自己的数据。谷歌和苹果的数据下载服务都可以让你选择要下载的数据。Facebook没有,但这三家公司都很容易让人在各自的网站上找到个人数据。与此同时,在亚马逊上获取数据则有点儿繁琐,需要在该网站的“联系我们”页面中挖掘,以查找隐藏在列表末尾的选项。而波特等了30天才收到相关链接,以便下载其数据。
然而,当波特查看收到的数据时,事情开始变得一团糟。有些文件的标签模棱两可,而其他文件的存储格式则让人头疼不已。实际上,找出波特正在查看的数据并不像想象的那样简单。
图:谷歌已经承认,即使用户关闭位置历史选项,它仍能追踪用户位置
谷歌的位置跟踪数据尤其难以理解。该公司曾多次因跟踪安卓用户而受到批评,即使他们关闭了操作系统中的主要位置跟踪功能。欧洲七个国家的消费者团体已经就此向各自的数据安全监管机构提出了投诉,利用GDPR赋予的权限下载个人数据,应该是可以检查这些服务是否使用某些技巧来收集更多数据的方法,也应该是让谷歌等公司承担责任的一种手段。
但是当你实际查看数据时,这些信息却很难查看和理解。波特来自谷歌的所有位置数据都包含在61MB的JSON文件中,并且使用Chrome打开它时,却显示出令人困惑的字段数组,这些字段标有“timestimpms”、“lattudeE7”、“logitudeE7”和关于其是坐在原地还是坐在某种交通工具中的评估。
波特表示,他毫不怀疑,这是谷歌已经关联到其帐户上的所有位置历史信息,但没有上下文,这些数据没有任何意义。他必须认真努力才能开始理解这些数字,并将其导入到另一个软件中以进行正确的解析。如果GDPR的目的是让人们对从公司那里收集的数据有更多的控制和理解,那么谷歌下载的这部分数据几乎没有什么用。如果你想把数据输入到另一个系统中,JSON是很棒的。但是如果你想评估谷歌有多少数据并据此做出明智的数据隐私决定,它们就不那么有用了。
当涉及到其他文件时,波特甚至不清楚最初看的是什么数据。位于ADS文件夹中、名为“My Activity”的4GB HTML文件,可能向他展示了许多与谷歌收集到的广告跟踪数据相关的内容,但是这里没有注释或元数据来解释它。
到目前为止,这些文件是整个数据下载中最令人困惑的内容,也是最重要的文件。它们包含了许多潜在广告商想要得到的个人信息,谷歌应该更加努力地解释这些信息的内涵。该公司已经提供了Index HTML文件来概述用户的数据,那么为什么不在其中包含有关每个文件内容的信息呢?
尽管仍存在问题,但苹果在数据发布方面的表现要好于谷歌。苹果提供的大多数数据都是易于阅读和理解的文件类型,比如CSV、TXT和JPG,其中只有几个JSON文件。但是,当你进入这些文件时,仍然有很多信息是很难理解的。
比如名为“Apple ID帐户信息”的文件,里面似乎包含11条关于波特苹果帐户中几乎相同的记录,所有这些记录都是在2014年完全相同的日期创建的,但苹果却没有解释它们是什么。另一个标题模棱两可的CSV文件“Apps and Service Analytics”似乎包含了波特在App Store中每次搜索的完整列表,但它的空单元格太多,当他看到6.7MB大小文件时,才注意到其中有数据存在。
亚马逊在展示数据方面做得要好得多,不过这可能只是因为它对个人的支持相对较少所致。在大多数情况下,亚马逊提供的文件和文件夹都有明确的标签,尽管该公司仍有些工作要做,以更好地标记其电子表格的内容。
具有讽刺意味的是,Facebook实际上拥有这四家服务中最容易理解的数据。首先,Facebook提供的每个文件都是HTML文件,每个文档都被分类到清楚标记的文件夹中,索引文件为用户提供每个文档所包含内容的概述。这些文件本身有清晰的布局和格式,浏览它们感觉就像是在Facebook上浏览一个页面,尽管其中一个页面完全存储在用户的计算机上。
图:Facebook的下载包括很长的索引文件,为用户显示在哪里可以找到其所有信息
看到Facebook存储的用户个人数据数量时,令人感觉有些惊悚,但至少你很清楚这些信息是什么,而不是根据每个文件的内容来猜测。
在实验结束时,波特在所联系的四家服务中找到近138GB的数据。其中,1.1GB来自Facebook、392MB来自亚马逊、254MB来自苹果。虽然谷歌有72.5GB的数据可供波特下载,但其中绝大多数是他的Google Drive和Google Photos的备份,分别为44.3 GB和25.7 GB。波特剩下的谷歌数据只有2.5GB。
在试图梳理和理解所有内容后,很明显,如果这些公司想要让我们真正控制自己的数据,那么它们和管理它们的GDPR法规还有很长的路要走。能够下载数据是一回事,但要使它变得有用,就意味着要更加努力地确保下载的内容对于普通人来说更容易理解。至少,这意味着这些公司应该提供更好的索引来告诉用户哪些数据包含在哪个文件中,但也意味着它们能以自己的方式来组织这些文件的内容。(小小)