书城管理大数据在中国
2841100000006

第6章 大数据,你还不知道的部分(4)

就像我们在现实中交换电子文档时,不一定靠U盘这种物理距离最近的方式,可能会采取MSN或腾讯QQ之类的即时通讯,因为它的速度更快、更方便,而且人们不会计较这些文件绕经网络服务器是否会被长期扫描和监测。这就是技术优势的巨大作用。

第二,数据传输诱导策略。

美国通过扩大数据传输带宽,可以诱导更多的数据流经本国,从它的家门口过,给它做一系列的数据截留分析工作大开方便之门。越多的数据流经美国,它能做的分析监测就越全面,那么它最终的收益就远远超过了风险。比如美国曾租用中国的卫星来传送数据,以提高非洲跟美国之间的带宽,就是一种付出较小风险获得较大收益的表现。

第三,控制数据通道,从其他数据源快速收集信息。

这一策略包括与电信运营商的合作和对其数据源的监控。例如,联邦政府的海外情报监听法庭要求美国电信运营商(Verizon)每天都要向国安局提交元数据--电话记录数据,包括通话双方号码、通话长度等,虽然不包括通话内容,但已经提交了大部分的个人信息。

第四,通过与民营公司和其他国家建立技术联盟来收集和控制数据。

综上,美国最早意识到了需要加强信息管理与网络安全,而加强的办法就是用政府的手去控制民营企业及其他国家的相关服务商,建立技术联盟。

1978年美国国会通过了《外国情报监视法》(FISA),1986年又通过了《电子通信隐私法》(ECPA),1994年通过了《执法通信辅助法》(CALEA),从而建立起了全方位的保障体系,联邦政府可以从容地对本国及外国进行监听监视。

最重要的部分是与技术巨头有关的,即那些控制互联网的大型公司,在《执法通信辅助法》中规定,执法机关可以根据法院监听令直接接入电信网络,启动电信运营商交换机中的监听功能。这意味着美国法律要求电信运营商等网络、通信服务者必须为政府预留一定的接口以备不时之需。

根据《华盛顿邮报》的披露,在“棱镜”计划中,一共涉及至少9家美国的IT公司,微软是在2007年9月11日第一个加入其中的,苹果公司则是在2012年10月最后一个加入的。另外还包括思科、IBM、谷歌、高通、英特尔、雅虎、脸书和甲骨文等。它们几乎垄断了全球IT产业的所有领域,包含了从硬件到软件再到服务三个层面,自然为美国政府提供了强大的技术支持。

比如,如果你的联网电脑使用英特尔公司提供的某款芯片,就会发送一个序列号到英特尔公司,这也意味着在这台电脑上运行的一些信息也可以同时一并发送过去。另外,操作系统是网络软件运行的载体,联网后我们会经常收到自动更新的提示,这意味着垄断操作系统的微软公司可以轻而易举地掌握一台电脑的网络活动。同时,由于操作系统在不断更新,微软公司通常会最早发现其系统存在的漏洞,他们向政府安全部门提供的漏洞信息,会有助于情报机构攻击那些还没有修补漏洞的计算机。

再比如,人们用雅虎邮箱发邮件,用思科的网络电话通话,用谷歌的地图标注、搜索,用脸书发布社交状态,用MSN即时通讯聊天,所有这些网络活动,都会在各大公司的服务器上留下原始数据,而且还是人们主动提供的信息,自己花钱把信息送上门。

这些公司的服务器是如此之多,它们可以向美国政府开放直接访问的后门,帮助情报部门读取数据,甚至能够全程参与国安局的监控计划。这些大数据的技术巨头,成为了政府收集信息和分析数据的绝好帮手,而这在民众毫不知情的情况下就可以完成。

海外盟友的数据来源包括澳大利亚、英国、日本、加拿大和新西兰等国家,比如著名的“五眼联盟”就是由美国、英国、加拿大、澳大利亚和新西兰五国组成,双方互通有无,协同收集数据。联盟成员甚至可以彼此监听对方国内的数据,绕开本方国内的法律禁区,然后交换数据。第五,建立尽可能多的海外非盟友“数据源”。当然,只有盟友数据源是不够的,美国还有大量的海外非盟友数据源。

比如斯诺登就透露说,为了窃取中国大陆的数据,美国采取的办法是直接在中国境内建立数据源合作伙伴。香港中文大学在1995年成立了香港互联网交换中心,它的前身为港中大连接美国的数据专线,拥有服务于全香港的网络数据交换服务器。美国在这个基础上可以方便地潜入进来,对数据进行窃取。

为数众多的黑客也是这一数据源的提供者,国安局旗下有一个叫作TAO的机构,拥有多达六百名高级黑客,来自世界各地(包括中国)。思科公司提供的设备为这项工作提前留下了后门,尽管思科强烈否认这一质疑,但随着曝光的深入,否认的声音已越来越缺乏说服力。

只要能获得海量的源源不断的数据,美国强有力的大数据存储和分析系统就可以派上用场。

第六,建设大型数据中心来保存数据。

为了保存这些海量数据,还需要一个庞大的数据库和处理中心。NSA在犹他州耗资20亿美元建立了一个大型的数据中心,足以保存5000亿G的数据,相当于全球500年的通讯量。为了实现这一目标,NSA专门开发了一个叫作Accumulo的大数据存储系统,并与相关的有军方背景的民用公司合作,开发这一系统的商用版本,来持续获取数据利益。

第七,对元数据的挖掘技术,使美国有能力构筑关联图谱。

元数据是最基本的数据单位,在移动互联网快速发展的今天,我们每个人几乎每时每刻都在产生数据。比如姓名、电话号码、邮箱地址这些都可以称为元数据,它可以拿来当作节点,把有过联系的人、号码、邮箱用线连接起来,就构成了数据和信息背后的人物关联图谱。这表明,元数据虽然单个看起来不怎么重要,但大量集中起来,却非常便于构建个体之间的关联。再比如,对电脑来说,元数据记录了一台计算机的工作环境,包括操作系统、浏览器、应用软件版本等基本信息,那么收集这些元数据,则是黑客发起网络攻击的必备步骤。对元数据的收集与分析能力,说明美国的网络监控水平已经具备了大数据时代的显著特征。有了这种对海量元数据的存储与分析能力之后,这些庞杂的信息经过超级计算机的快速运算,就能从中显露出不易察觉的规律,从而为情报部门提供有效的情报信息。在大数据时代,美国对于关联图谱的挖掘技术进展迅猛,使得从元数据中能够挖掘的隐私越来越多,简直到了无孔不入的地步。换句话说,现有的技术可以做到一切:侦测到你每天发送的短信数量、电话频率以及约会对象,并且深入地探查出你的全部生活和工作习惯,让你成为一个彻底透明的人。

一项调查显示,美国国安局拥有一个4.4万亿个节点、70万亿条相关联的图谱数据。按照全球70亿人口计算,国安局有能力为每人保存将近630种信息,可以分析出每个人多达1万种的关联。要知道,我们只需要4个时间点和位置就可以确定一个人的身份了,而且准确性已经高达95%,那么1万种呢?这一技术的先进程度已超出普通人的想象,相关的技术告诉我们,即使你已隐姓埋名、流落天涯,只要他们有这个意愿,就可以轻松地找到你,并能穷尽你的一切社会关系,甚至比你自己知道的还要多。

第八,强大的分析工具:可视化和实时查询的大数据系统。

美国国安局还拥有一套大数据可视化和实时查询系统,名字叫作BoundlessInformant。它的作用在于将监听、收集到的全球数据进行可视化和能够实时查询的分类,把不同的国家、地区用不同的颜色显示,构建出全球信息分布图。有了这样的大数据系统后,就具备了强大的分析能力,不管收集到多少数据,都可以轻松地整理、归类、分析和预测。

第九,拥有全数据挖掘技术,进行“无死角”数据收集。

美国一方面在挖掘元数据,另一方面也在发展对全数据的收集技术,争取做到数据收集无死角。像有一种叫作Narus的光纤监听设备,可以进行内容层监控,还有一种叫作爱因斯坦3号(Einstein3)的系统,可以对数十亿邮件的全文内容进行扫描。语音监听和识别也是这一工作的组成部分,对多语种的语音视频内容进行分析辨别。

第十,为全球互联网的发展提供了可能性。

我们已经很难用一个特定的词汇来形容全球互联网的结构。但它的主要构成特点我们是清楚的,一方面它就像树一样,有根、主干和枝蔓,最后连接到每一个用户;另一方面它又是平状的,具有平等和无中心的特点,每一个节点的信息都可以在全球的网络中自由流通。也就是说从信息流通来看,互联网是一个扁平的世界,但在管理上,却仍然是自上而下的结构,有骨干网络来处理、管理所有的信息。

例如在中国,163和169骨干网承担着中国80%以上的网络数据流量,它们统称为中国公用计算机互联网(CHINANET),另外还有中国教育和科研计算机网(CERNET),全国科研机构的中国科技网(CSTNET),中国金桥信息网(CHINAGBN)。它们共同组成了由上到下的中国四大骨干网络。从网络监控和攻击的角度来说,自然是从上往下更好,这有利于获取更多的信息,也拥有更大的控制权限。

从棱镜门事件我们可以看到,由于具备足够的资金、技术和不受限制的权力,较大的机构是大数据的最大受益者,它们可以窥探个体的信息和收集、预测人们的关联数据,达到控制人们需求并实现一系列组织计划的目的。要想充分防范大数据技术的滥用,就需要发挥我们每一个人的创造性,由人去主导大数据的进程,而不是成为数据可以控制的一部分。

我们每个普通人都需要参与进来,思考大数据技术的合理开发,并加入这个神奇的新时代,成为它的主人。