《黑镜》:斯诺登揭露NSA的社交图谱工厂

五月下旬,网络安全行业非常关注的一本书在亚马逊公开上架发售,那就是三届普利策奖得主和《纽约时报》畅销书作者巴顿·盖尔曼采访爱德华·斯诺登(Edward Snowden)的新书:《黑镜》(注意,不要跟同名美剧搞混),再次爆料美国国家安全局对全球社交图谱的监控和分析“黑科技”。

今年初斯诺登公开了《永久记录》的未删减版本,数月后访谈记录《黑镜》上架,根据目前的读者反馈来看,《黑镜》难能可贵的是没有炒冷饭,依然诚意满满,爆料了大量此前未曾披露的信息。

在《永久记录》中,斯诺登揭露了NSA的电话记录跟踪程序。而《黑镜》则进一步揭示了过去几年中,NSA如何通过“预先计算的联系链”,使其监控数据库的功能比以往任何时候都更加强大。

以下是安全牛对《黑镜》部分报道内容的编译摘录,方便大家对该书的背景和内容有个大致的了解和判断:

在2013年的一个夏天,斯诺登花了很多时间梳理来自美国记者手中的大量绝密文件存档,并向专栏作家格伦·格林瓦尔德(Glenn Greenwald)和纪录片制片人劳拉·普伊特拉斯(Laura Poitras)发送了成千上万份机密文件。

其中一份文件于2013年6月首次公开,显示NSA正在追踪美国人在美国境内进行的数十亿电话通话。该程序臭名昭著,但其背后完整的故事并未被披露。

冰山的水下部分

最初的爆料只揭示了冰山一角:如果你拨打了本地或国际电话,则NSA将存储你拨打的号码以及电话的日期、时间和持续时间。这就是所谓的“家庭监视”,简单明了。事情败露后,NSA否认侵犯隐私权,声称仅收集了“元数据”,而不是电话的内容本身。NSA说,仅在极少数情况下,它才在记录中搜索恐怖分子之间的通讯内容。

斯诺登决定进一步深入研究,因为上次爆料后的全球公开辩论漏掉了很多重要信息。一开始斯诺登并不了解这些记录的样子,认为只是一些简单的数据列表。斯诺登还以为NSA清理了这些列表(包含呼叫日期、通话时长等信息),并将其转换为该机构首选的“Atomic Sigint数据格式”,束之高阁。但在斯诺登首次披露情报后六周,波士顿马拉松爆炸案发三个月后,当年7月的阿斯彭安全论坛(Aspen Security Forum)上的一次对话中,前国家情报总监登尼斯·布莱尔上将向斯诺登保证,这些记录是“存起来的”,没有被改动,直到接下来的波士顿爆炸案(才再次被启用)。

法律专家保罗·欧姆(Paul Ohm)将NSA手里的海量信息形容为“毁灭性数据库”。它持有的个人机密“如果被揭露/泄露,不仅会造成尴尬或耻辱,还将导致严重的、实质性的、破坏性的伤害。” 他写道,几乎发达国家中的任何人都可以与计算机数据库中的至少一个事实建立联系,攻击者可以利用该事实进行勒索、歧视、骚扰或进行财务/身份盗窃。”例如,“对过去的不良行为、健康或家庭糗事”的揭露可能会导致一个人的婚姻、职业、合法居所或人身安全蒙受损失。

仅仅创建一个这样的数据库,尤其是秘密地创建数据库,就深刻地改变了政府与被统治者之间的权力平衡。这就是所谓的黑镜,玻璃的一面是透明的,另一面是黑色的。而且,更可怕的是这面黑镜并不总是黑的一面朝向个人,试想一下:如果一小部分公民可以秘密访问政府官员的电话记录和社交网络,该怎么办?特权知识分子如何利用黑镜去左右权力改变事件的走向?如果他们拥有羞辱和破坏当权者职业的手段,他们之间的互动将如何改变?无论是否使用,黑镜的魔力依然是一种绝对的存在,未开火的枪依然是致命武器。这些武器级的数据库,就像核弹头一样码放在政府的军械库中。

斯诺登认为这些担忧不是假设,而是实实在在的隐患。2013年9月,斯诺登突然意识到还有一些未来得及充分探讨的具体问题。例如,电话记录存放在NSA的内部何处?被如何处理?斯诺登档案没有直接回答这些问题,但留下了线索。

9月下旬,斯诺登偶然发现了第一个线索:NSA内部讨论的全面大规模“批量收集”(bulk collection)引起了斯诺登的兴趣。电话记录只是被采集的多种数据类型之一。NSA在发现和摄取他人的全部信息方面已经变得越来越娴熟,甚至富有创造力。但是最近,NSA开始发现它消耗了太多东西,以致无法消化。中层管理人员和工程师在为他们的指挥系统准备的简报中发出了警告。一个演讲PPT的封面问道:“这是SIGINT的终结吗?” 显然,情报采集和监视的基础设施的工作压力已经很大。

一张图表中的一个名词吸引了斯诺登,这张图表列出了风险最高的系统:Mainway。该系统由NSA的工程师在2001年911事件后着手紧急开发。时任副总统切尼的办公室起草了由乔治·W·布什总统签署的命令,启动这项 “违法”工作:追踪美国境内的美国人拨打和接听的电话。Mainway行动是我们现在所看到的更广泛,更变本加厉的不合法行为的前兆。

在“基地”组织劫持飞机撞击世贸中心和五角大楼后的疯狂的几周,切尼办公室内制定了一项国内监视计划Stellarwind,Mainway则是实现它的工具。

当时,NSA知道如何监控国外电话,但是还没有在本土实施的设备。

当国家安全局局长迈克·海顿(Mike Hayden)于2001年10月4日收到副总统切尼的Stellarwind特别计划的执行命令时,国家安全局的工程师在几天之内用裸机组装了一个系统,并借用了代码,这在压力之下是一项了不起的成就。他们“截胡”了戴尔发给客户的50台最先进的服务器,整合到一个“快速,肮脏但功能强大的集群”中。Hayden清理了OPS 2B大楼壁垒森严的翼楼中的空房间,OPS 2B是NSA马里兰州米德堡闪闪发光的总部大楼的内部圣殿。该计算机集群进一步扩展,整合了约200台机器,Mainway系统甚至还扩张到了Tordella超级计算机设施的一个节点。同年10月6日至7日,Mainway开始召集一小批分析师,程序员和数学家。

在10月8日哥伦布日(Columbus Day)上,海登(Hayden)在专门划分的新业务部门中向招募来的专家们介绍了他们的新工作——“Starburst”。之后,Stellarwind取代了Starburst这个名字。在同一个假日周末,海顿派遣了特种资源运营部的人员,与AT&T和Verizon等公司秘密商讨购买大量电话数据的秘密。在之后的五年中,这一“采购”的金额将超过1.02亿美元。

Stellarwind项目不可能逃过其他NSA工作人员的眼睛,因为他们看到新装备以疯狂的速度在武装护送下到达,但几乎没人知道具体发生了什么。Stellarwind项目的代号被指定为ECI,即“例外控制信息”,是所有信息中最严格的保密分类。副总统切尼在他的西翼办公室下令,Stellarwind项目需要对FISA法院法官和国会情报委员会保密。

根据斯诺登的消息来源和2013年秋天研究过的文件,Mainway随后很快成为了NSA绘制社交网络的最重要工具-该机构称为大型访问利用的锚点。在米德堡,“大”不是随意使用的形容词。Mainway专为超大规模运营而设计。

元数据才是王道:全民画像

NSA其他系统负责解析截获的通信的内容:语音、视频、电子邮件和聊天文本、附件、寻呼机消息等。而Mainway是处理元数据(国内外元数据)的王者,旨在查找内容无法揭示的模式和关联。除此之外,Mainway是更雄心勃勃的计划的原型。该原型的规划者写道,下一代系统的侧重点将从“已收集信息的处理,向收集何种信息”转移,来进一步提高监控能力。例如,从通话记录中收集的模式将有助于从电子邮件或位置数据库中识别目标,反之亦然。

元数据是NSA计划“识别、跟踪、存储、操纵和更新所有形式的被拦截内容之间的关系”的关键。通过可视化的集成地图,NSA能够在全球范围内锁定显示几乎任何人的活动和通讯。在他们的第一个任务声明中,计划人员给该项目取了个直白的名字“ Big Awesome Graph”,缩写为“ BAG”(口袋)。这个“口袋”最终将使NSA能够在全球范围跟踪任何人。

关于这个问题的关键发现出现在2012年准备的一张大型网络图的右下角(下图)。这个示意图终于回答了NSA将海量电话记录存放在哪里的问题,这些记录存储都在Mainway系统中,威力惊人。

整个网络流程图太大了,无法完整显示,该图追踪了来自AT&T的“计费元数据流”如何沿着迷宫般的网络图谱流进了NSA总部迈德堡的“口袋”——Mainway。数据进入Mainway前的最后一站MAILLORDER是一种文件分类和转发系统,扮演着电子交通警察的角色。网络图中的“ BRF分区”是根据Business Records FISA订单命名的,其中有12项是在2009年签署的,将数千亿次电话通话记录注入了Mainway。

对于首次看到这张网络地图的读者,可能会把标注Mainway的圆柱形图标误解为存储器。实际上圆柱体是数据库的标准符号,Mainway并不是存放静态数据的容器。在NSA它们被称为数据集市和数据仓库。如果该机构仅存储美国电话记录,则将其留在名为Fascia II的系统中,该系统是为Mainway提供服务的“呼叫详细记录仓库”。Mainway在其第一财年提出的任务是“使NSA …主导全球通信基础设施,以及在其中匿名运行的目标。”系统完成任务的方式对美国人的隐私具有重大影响。

下面是Mainway在SSO词典(一个保密的NSA参考文档)的解释条目:

(TS // SI // REL)Mainway或Mainway预先计算的联系人链接服务(Mainway Precomputed Contact Chaining Service)是一种用于联系人链接的分析工具。它使分析师能够快速,轻松地查询日益增长的全球通信元数据,更快发现目标。Mainway解决了分析全球通信网络的数据规模过大问题。

在这个简短的词条介绍中有三个值得注意的术语:规模问题、关系链和预先计算。最后两个结合起来,颠覆了我们对通话记录程序的理解,但在此之前,请先注意一下规模问题。

实际上,NSA面临各种规模性的挑战。太多的信息在全球网络之间高速移动,NSA摄取过多,存储太多,太多的噪音淹没了太少的有价值信号。但是,在我刚才引用的段落中,规模问题还涉及到其他问题,即监控机器内部的问题,也就是NSA“食欲不振”的一种表现。收集系统“贪多嚼不烂”,问题出在处理而不是存储环节。

长期以来,情报官员通过引用布什总统的话来解释通话记录数据库的使用方式。布什说:“在我看来,如果有人在与基地组织谈话,我们想知道为什么。”

实际上,这完全不是NSA使用电话记录的方式。该程序旨在找出任何与恐怖主义有联系的人,而不是为了查明原因,因此,这个程序事实上搜查了所有美国人。通过FBI,NSA通过其可以染指的每个帐户收集了五年的电话清单。数以万亿计的电话记录。在坏人的电话账单上查找号码可不需要整这么大动静。

这就是联系链(contact chaining)的来源,该短语用于描述一种在非常大的数据集中查找隐藏的关系的极为复杂的分析形式。联系链分析从目标电话号码开始,例如波士顿炸弹袭击者Dzhokhar Tsarnaev的电话,并逐渐扩大范围,以查询Tsarnaev的联系人正在与谁交谈,以及这些人正在与谁交谈等等。

软件工具将呼叫记录映射为网格上的“节点”和“边缘”,网格太大,超出了人脑的想象空间。节点是地图上的点,每个点代表一个电话号码。边缘是在节点之间绘制的线,每条线代表一个通话。一个名为MapReduce的大数据分析工具将数万亿个数据点浓缩为人类分析师可以掌握的摘要形式。

社交图谱

网络理论将社交地图称为社交图谱(social graph)。它为定义每个人与世界互动的关系和群体建模。图的大小随着联系链接的发展而呈指数增长。链接的全部目的是从目标的直接联系人向外推到联系人的联系人,然后再向外推导。该过程中的每个步骤都称为跃点,跃点的层级数越多,社交图谱的人口规模将呈几何级数增长。

国家安全局前副局长约翰·英格里斯(John C. Inglis)在2013年向国会作证说,国家安全局分析师通常分析呼叫数据的深度只有“两三跳“。作为背景知识,数据科学家几十年前估计,跟踪地球上任何两个人之间的路径所用的跳数都不会超过六跳(六度空间理论)。

学术研究表明,平均三跳就可以追踪到任何两个美国人之间的路径。

但即使是Mainway这样强悍的系统,要分析整个美国的电话记录依然是一项极为艰巨的计算任务。每当Mainway的运营商要求建立新的联系链时,Mainway必须在时间压力下按需生成该地图。没有人能预测下一个领导者的名字或电话号码。从数据科学家的角度来看,逻辑上的补救办法是明确的。如果任何人都可以成为情报目标,那么Mainway应该尝试抢先一步,给所有人“画像”。

“您必须建立所有这些关系,并对其进行标记,以便在启动查询时可以快速获取它们。”几年前,国家安全局前副局长里克·莱奇特(Rick Ledgett)透露。“否则,您要花一个月的时间浏览一份专线专用的电话账单。”那就是为什么要引入预计算, Mainway7x24小时不停歇地关联其数据库信息”。

Mainway的工作永无止境。因为它试图索引的这本书,永远是不完整的。联邦调查局每天通过电话公司为国家安全局输送的新电话记录超过10亿条。Mainway必须每天再“吃下”这10亿条数据,以符合FISA法院对通话信息保留5年的限制。每次新数据引入都会通过社交图表进行级联,重新绘制地图并迫使Mainway不断更新。

换句话说,Mainway的目的既不是存储也不是准备简单数据列表,而是进行持续,复杂和高强度的运算,为另一个称为“内存图谱计算”(Graph-in-Memory)的数据库提供资源。

2013年4月,波士顿马拉松炸弹爆炸时,“内存图谱计算”已经准备就绪。在FBI开始调查之前,Mainway已经掌握了嫌犯Tsarnaev兄弟的电话联系人图谱,包括基本的细节(日期、时间、持续时间、忙音、未接来电和“呼叫等待事件”)可供轻松按需检索。Mainway已经提前处理了它们。借助第一跳的预先计算,内存中预计算的关系图谱可以更快地完成第二和第三跳的工作。

当斯诺登在2013年秋天解析文档并采访了消息来源时,其含义终于浮现了。美国国家安全局(NSA)建立了一个实时的,不断更新的美国社交图谱。

事实是,美国人的电话记录没有被冷存储,这些数据没有闲着,它们被编排在每个人的一跳接触链中。社交、医疗、政治、专业等所有秘密均已被7×24预先计算。这是一个预先配置好的数据库,只需按一下按钮就调出任何一个人的“画像”。

斯诺登表示,没有理由相信美国国家安全局(NSA)滥用了美国人生活的实时地图。即使布什的总检察长迈克尔·穆卡西(Michael Mukasey)越过了边界,该规则仍对美国电话记录的使用施加了一些限制。根据隐私和公民自由监督委员会的说法,只有22位高级官员有权下令根据Mainway的FISA分区中的数据建立联系链。

但是,斯诺登指出,历史上没有人相信政府的行为总是遵循规则,或者规则永远不会以危险的方式改变。在记忆中,理查德·尼克松下令窃听他的政治敌人。联邦调查局将小马丁·路德·金(Martin Luther King Jr.)判定为“危险而有效的黑人”,并利用秘密监视记录了他的性关系。

斯诺登指出,滥用监视的情况最近也时有发生。FBI非法部署了数百个没有逮捕证的GPS跟踪设备。纽约警方系统地监视了清真寺。各级政府最大程度地使用国家权力,有时甚至是非法使用国家权力,监视因贫困、种族、宗教、种族和移民地位而处于不利地位的社区。作为总统候选人,唐纳德·特朗普明确威胁要把他反对的候选人入狱。上任后,他宣称拥有控制任何政府机构的绝对权利。特朗普还向司法部公开和私下施加了巨大的压力,要求对批评者进行刑事调查。

以上内容摘编自斯诺登新作《黑镜》,由企鹅出版社(Penguin Publishing Group,Penguin Random House LLC的子公司)出版。

上一篇:调查:自动化能否杀死安全分析师?

下一篇:消灭弱密?苹果开源密码管理资源工具