阿里云叶敏：阿里云的威胁情报实践

责编：rhliu ｜2016-06-29 15:43:35

叶敏：大家好我是阿里巴巴的叶敏，我负责云盾的安全攻防，今天我给大家汇报一下我们在阿里云威胁情报的实践以及取得的成果。我今天主要以案例的方式跟大家讲一下我们做的工作。现在我们公认的观点是做威胁情报一定是基于数据去做的。

首先我给大家看几组数字，第一是30%，现在整个中国已经备案的网站有30%是在阿里云的，而且这个数字还在高速地增长，我们相信很快这个数字将突破50%。30%是什么样的概念？你现在拿起扫描器在全国做随即的批量扫描的话，一定会扫描到阿里云来，除非你有意避开阿里云。我们每天接受的请求有4千亿次，我们每天用于安全运算的日志量有300T，这是压缩后的，实际上这应该再乘以9倍左右。这是云盾产生的攻防的数据，第一我们每天阻挡了100次的DDos的攻击，3000万的web而攻击和2亿暴力破解攻击。现在阿里云有自主研发的分布式数据计算平台，这是我们去年创造的一个记录，我们以377秒的成绩打破了100T数据的排序记录，前两年分别是由Hadoop等创造的记录。

我首先介绍一下我们威胁情报的来源，最大的来源是云盾的攻防数据，像WAP每天能产生大量的攻击，我们对肉鸡和控制端做了深入的分析，还有我们覆盖了很多服务器上的端，能够收集到大量的恶意样本，这个恶意样本和其他的安全厂商很不一样的地方是，我们是集中在服务器端而不是PC端的。还有一点是我们云盾感知授权了我们分析全流量，流量中我们也可以抓取到很多有价值的信息。另外是流量的信息，从单个事件中不能看出事件的威胁，可是多维度进行关联的分析，往往可以发现这些事件背后更加深层次的威胁。

第二个数据是从外部公开的信息所获取的向外部公开的漏洞和各种安全事件，有一些流向上没有的或者说我们的产品上没法儿产出的东西，必须得靠主动扫描的方式获取，外部的代理的分析和全网的各种漏洞。下一个是大家熟悉的漏洞应急响应中心，我们阿里巴巴也有自己的ASRC，专门为阿里巴巴收集漏洞和信息，最后一个是云吨的先知计划，这是我们为客户提供的漏洞和情报收集平台，我们帮客户搭建了一个跟白帽子之间的桥梁，帮企业做应急响应中心。

我主要会集中在IP信誉和漏洞方面的情报来讲一些案例。第一是IP信誉库，也叫IP画像，我们每天遭受到的来自全球的各种攻击，而且量是巨大的，通过这些流量进行分析，我们能够准确地知道这个IP是不是一个恶意的，历史上有没有什么恶意行为，它的攻击偏好是怎样的，我们都有记录在案，我们能识别出一个IP是好的还是坏的。我们也能识别出来这个IP是一个真人在用还是说背后是一个扫描爬虫。第三是出口IP很多时候我们需要判断这个IP是很多人共用的或者是某一个人或者是一个家庭在用，这个我们也能准确地识别出来。还有爬虫和扫描器的IP，包括搜索引擎的爬虫，各种安全厂商的扫描器的IP，下一个是全网代理服务器的IP地最后我们每天阻挡这么多次的DDos的攻击，我们对肉鸡和僵尸网络也做了非常深刻的研究。

这是我们监测到的恶意IP的类型的分布，我们一共支持20多种恶意IP的类型，这里列出了主要的几种，可以看到暴力破解类型加起来已经超过了一半了，这个模型上线到现在一共积累了110多万个恶意IP，因为很多的IP可能因为动态变化，和平用一段时间之后得分配给别的人了，所以有一些长期没有恶意行为的IP我们把它剔除掉了，日活跃的IP有10万。这是全球的地理位置的分布，左边是国外的分布，可以看到俄罗斯、美国、土耳其、乌克兰这样黑客比较活跃的地区都出现在榜单上面。右边这个是过么的分布，主要是集中在一些沿海的发达的省份，像广东、浙江、江苏这些省份，我们对这些恶意IP也做了非常深入的研究，为什么会出现在这些省份，因为这些省份都有大的IDC的机房，黑客通常是通过租用这里的服务器进行7×24小时不间断的黑客攻击扫描。因为黑客通常在抓机的时候拿到了一个执行命令的权限之后，通常会下载一个恶意文件，之后把恶意文件执行起来，所以我们监测所有攻击的流量从里面抽取恶意文件URL，这就形成了恶意文件的传播源，这是日报的截图，可以统计到恶意文件的传播源有多少的IP访问了它，这些IP很可能是中马了。

这是webshell的连接源很多的web在攻击成功了以后植入一个webshell，用webshell长期地控制这台机器，我们对所有的webshell机器也做了深入的分析，从流量里面，能够分析出来一个IP它常用的webshell的名称是什么，常用的一句话木马连接的参数是什么，通常我们也叫密码，这就是黑客的一些行为的习惯。这也是我们日报里面的一张截图，只是某一天的数据。我们在很多时候需要判断一个IP背后是不是一个真人，因为我们在做很多安全决策的时候这个IP背后是一个人还是一个机器对我们做决策是有很大的影响的，所以我们做了一个这样的真人IP的判断模型，真人在访问的时候很多情况下会用浏览网站，所以你的Http会包括CSS、图片的请求，通常情况下这种请求占的比例是超过了一半，大部分是这种请求。另外是浏览器会有自己的一些特性，浏览器会访问一些favico.ico的文件，浏览器也会支持cookie，正常的浏览器不会支持这些东西，通常一个真人使用的IP，在白天和黑夜的流量是不一样的。另外我们借用了阿里的应用，当你使用这些应用的时候就会访问阿里的IP，你不一定每天都会访问淘宝，但是你的APP像手机、安卓手机的APP会在后台自动地访问，所以通过这些我们也能知道这背后是不是有一个真人。还有就是APP的行为，因为阿里云客户有很多是做游戏的做一些APP的，我们能够把某个客户的一些属性给识别出来，假如说我们认定它他是一个游戏客户，如果某一些IP访问游戏客户的话，很有可能背后是一个游戏玩家，这也判断出来背后是不是真人。通过各种维度，上面列的我们进行综合的判断能够知道这个IP背后是一个人还是一个机器。另外一个场景就是识别CDN和WAF的IPCDN和WAF都是使用反向代理的方式，用户在访问这个网站的时候并不是访问真正的webServer，而是访问了CDN，CDN再访问WebServer，一个CDN可能就覆盖了一篇区域，一个省份甚至是好几个省份，所以从webServer来看，它的访问源就那么几个CDN和IP，最多是几十个、几百个，所以这些来源都来自于少数的几个IP，这样对我们做安全决策的时候是有风险的。假如说我们有一个IP有攻击行为，如果把这个IP作掉的话很有可能会损伤一大片的用户，所以我们有必要把这个IP识别出来。

当然有比较明显的特征，从WebServer看来，如果是一个网站的话，所有的流量都是由或者说大部分流量都是由少数的IP贡献的，也就是说少数的那几个WAF的IP，不会超过几百个，我们通过这个全网IP和各家WAF厂商的IP。我们还可以发现网上的批量扫描，基本上凌晨的都是扫描器产生的基本上没有正常人的流量行为，这个扫描器都有这样的特点，做批量扫描的话，扫描的网站一定是非常非常多，他扫描的一般是扫描特定的几个漏洞，所以它的URL也非常集中，通过这两个特征，简单的模型就可以把扫描器识别出来，左边这个是实现的功能是把那些日志通过原IP和URL进行聚类，然后根据它访问的网站数量做倒叙排序，得到了右边的结果，可以看到第一个IP访问的都是同一个。第二，我们看了一下他分析了一下发现是在探测Dlink某个路由器的漏洞。第3、4、5分析我们了以后发现是在探测一个帝国备份的漏洞，基本上前面所有都是在做批量的漏洞扫描。当然真实的模型会比这个要复杂一些，因为我们要去除掉一些噪音和干扰。

这是一个比较简单的模型，我们看一些比较复杂一点的，我们能够识别出全网的搜索引擎爬虫IP和全网各厂商的扫描器IP，安全厂商的扫描器IP。因为这个模型我们能够看到背后别人看不到的东西，像一些漏洞爆发了之后，各大安全厂商就全网扫一把，再发一个PR说我们发现全网有多少受影响的IP，他们的分布是怎样的，其实他们的扫描行为都是在我们的眼皮下的，去年在双十一的前一天，爆发了一个未授权访问漏洞，如果要管制会把所有的cookies去掉，所以这个扫描是有副作用的，可是我们监测到国内好几个大的安全厂商，做全网的批量扫描的时候没有考虑到后果，没有考虑到用户可能带来的损失。还有我们能够收集到全网的搜索引擎，爬虫的IP，有一些安全扫描器或者是安全产品，冒充了搜索引擎爬虫，做一些安全攻击的事情，这些我们都能监测到。

另外一个是识别撞库，最近几年密码泄漏事件非常严重，撞库也是黑客非常喜欢的手法，撞库登录的频率非常高，第二所有的请求是占比非常高的，通过这两个我们可以识别出来这是不是一个撞库行为，大家肯定有疑问，这个不需要社工库吗？怎么跟暴力破解区分开来？当时我们也遇到了这样的问题也考虑了很多，后来我们发现暴力破解很多情况下是账号密码是1对多或者是多对多的，也就是暴力破解行为的账号数一定会小于登录次数，而且这个数据相差是非常大的，或者说密码数小于登录次数，威胁情报账号密码是一对一呈现的，总体来说账号数和密码数和次数是接近的，使用相同的密码，总体上会接近。另外一个是云与垃圾注册小号登录的区别，撞库一定是使用了真实的账号和真实有人用的那些密码去撞的，所以真实的密码通常来讲都不是完全随机的会带有一些英文单词或者是你的名字的拼音，或者是生日之类的，不是纯随机的，而通常那些搞垃圾注册或者是搞这种小号的一般来讲要么是用完全一样的密码，要么用随机的密码，所以密码的随机性我们在数学里叫商，这是不一样的我们通过这个也能区分出来。

这是我们统计的威胁情报的受害行业的分布，金融行业社区论坛和游戏排在前三，其实黑客的目的已经非常明显了，就是瞄准了那些有高价值的账号来撞。这是互联网上邮箱泄漏的案件，去年乌云上爆出来某邮箱的账号密码泄漏，当时互联网上各种说法有人说真的，有人说假的，谁也分辨不清。这个事情当时是在19号乌云上爆出来的，然后再往前几天也就是在11号的时候，我们就监测到了这个邮箱的账号在撞库事件中的次数开始明显地提升，相比11号增长了足足有4倍，而且邮箱的账号在所有撞库中的占比也是在稳步地上升，最后这个事情到底是不是泄漏大家应该懂了。

下面是关于DDoS的情况，阿里云在全国有很多的数据中心和机房，其外也有很多的数据中心，全网大流量的DDoS攻击，肉鸡数量如果非常非常多，有很大的概率一定有肉鸡在阿里云的，我们通过分析肉鸡的行为和流量可以分析出DDoS的控制端在哪儿。同时我们也分析了很多僵尸网络用的木马的控制端，其实很多控制端写的并不是特别地健壮，往那里发一些畸形的数据包可能会崩溃及我们可以讲疑似DDoS攻击停下来，因为每天超过1000次的DDoS攻击，我们对攻击源做了非常深入的研究，我们捕捉到了全网8万多台的肉鸡，另外反射攻击是伪造的IP的攻击，我们发现由于最近一两年随着智能家居的普及，SSDP反射攻击最近一两年呈上涨的趋势，而且已经超过了DNS和NTP的反射攻击，因为一些漏洞会不断地被消掉，这些反射源是在不断地减少的，SSDP是在持续地上涨，这是我们统计的全网僵尸网络控制端的分布，还是分布在沿海的几个省份，也是跟IDC机房有很大的关系的。这是一个肉鸡的分布，跟上一个图差不多。这是我们对DDoS木马种类的分析，其中一个比较大的叫Nitol的木马占了超过一半，网上有传言说它的源码泄漏了，有人修改就变种了，数量量非常大。

有了这些威胁情报，我们一定不是说把这些数据放在这里自己看看，自己查一查我们一个很大的目标是将这些威胁情报数据规模化自动化地应用到产品里。我给大家介绍几个案例，这是一个发现安全威胁的案例，如果我们认定了一个IP就在恶意IP库中就是恶意的，如果某听这个恶意IP登录的一台服务器，很有可能这就是高危的安全事件，这是需要重点关注的，这个功能我们已经做成了，已经产品化，已经做在云盾上了，这是真实的网站的截图。这是一个服务器连接恶意IP的事件，如果这台服务器连接了一个我们恶意IP库中的僵尸网络的IP，你很有可能中马了，很有可能成为了僵尸网络中的一员这是我们已经做成了产品化的了。还有一个能够发现PAM，我们的安全人员发现了很多的报警，很多客户都产生了这样的报警，内容是客户的服务器连接了韩国的恶意IP，并且从恶意IP上下载了一个恶意文件，就是恶意文件传播源，因为数量非常非常大，有上千台机器同时产出了报警，所以我们安全人员立即进去分析了，发现黑客通过批量地破解PGSQL的弱口令，植入恶意程序，通过控制下载恶意文件。

下一部分我会讲一下漏洞的东西，每天接受的攻击非常大，我们做了异常流量的模型，这只能区分是正常还是异常的，我们会根据参数来判断，仅仅能区分出来是正常还是不正常，并不知道这是不是一个攻击，是一个已知还是一个未知攻击，我们后续做了一个把已知的攻击的规则放到库里面，匹配一下，看看是不是已知攻击，如果不是就继续往下走，很有可能是未知的攻击，很有可能是未公开的漏洞，通过这个我们每周可以捕获两个未公开的漏洞，其中有一些是安全厂商漏洞平台收集到的只不过没有公开被我们捕捉到了，有一些白帽子在挖漏洞的时候也会被我们捕捉到。这是去年的一个案例，通过异常流量分析捕捉到的一个Lumanager的漏洞，我们的模型产生的日志就是针对Lumanager有一个SQL注入的Oday，我们匹配了这个公开的漏洞，发现这没有相关的漏洞，我们认定它一个未公开的漏洞，经过了深入的分析，这个东西我们是第一次看到，我们基于这个漏洞还发布了一篇分析文章。

最后一部分是云端的先知计划我们为阿里云上的客户收集漏洞和情报的平台，其实就是帮客户和白帽子之间搭建的桥梁，充分地利用了生态化的安全资源，社会化的方式包括白帽子和安全公司都会做我们这边注册，帮助客户提供漏洞和情报，我们与其他的安全漏洞收集平台不一样的是我们充分考虑到企业的感受，我们不会将这个漏洞公开出去的，所以企业也不会因为这个漏洞受到名誉上的损失。这是一个先知计划的运作流程，白帽子和安全厂商的流程可以来我们的先知平台注册，厂商也可以来我们这里注册，并且把他的奖金放在我们先知平台。当白帽子和安全公司挖到漏洞以后，我们有专人审核，如果审核的漏洞是通过的，我们会把奖金颁发给白帽子。这个漏洞其实只有白帽子和先知平台以及厂商知道，我们有协议地约束白帽子不能将漏洞公开。

我就讲到这里，谢谢大家！

上一篇：杨大路+都柯：高级恶意攻击结合威胁情报云的多维分析

下一篇：对话腾讯马斌解读互联网＋安全战略