NSC2015阿里巴巴王小东:云计算和安全

阿里巴巴集团安全部技术专家王小东跟我们分享一下阿里巴巴安全的实践。

王小东:各位下午好,非常荣幸参与这次交流,我今天下午给各位带来的主题演讲是关于云计算和安全。为什么把云计算和安全分开说呢?首先我认为做安全往往不能在外端,除了平台安全以外,我们还应该对平台本身上的业务也要做安全的保障。所以我们整体解决方案通常都是要适应于平台以及平台上业务用户,所以我们分别看一下云计算的安全和云安全有什么区别。

自主可控。

现在我们国家在讲信息安全战略时都会提到自主可控的方向,阿里云成立于2009年的一家专做云计算的公司,2010年主要将集团内四大应用搬上了云计算。2010年我们将阿里云.com正式上线,第一台云服务器对外提供服务。逐步通过几年的发展,阿里云已经建成了一个相对开放的生态,现在有百万级的用户在阿里云上跑着。今年我们在中东、欧洲国际化市场、日本都会建立阿里云的数据中心,在中国我们已经有了五个地域有我们的数据中心。

现在员工超过2200人,80%人员都是开发技术人员,我们是相对技术的公司,在北京、杭州都有研发中心,全球各地都会逐步建立起我们的数据中心。

如图,阿里云总体架构。最底层是机房,ADC、物理服务器。红色区域是与传统或其他云计算有所不同的一个特点,是阿里云分布式的云操作系统,在此之上我们做了很多工作,主要解决以下几大问题:1、设计盘古分布式文件系统,可以实现三副本的保存,实现数据高可用性,里面会有很好的节能型;2、伏羲,解决任务调度的问题,云计算是将成千上万台很多计算机连接起来工作,其中调度的任务是非常重要的,因此伏羲是解决这个部分的问题,在100pb排序算法当中,应该比世界最快的能快大概500秒左右的时间。在盘古分布式操作系统之上还有一个模块是安全管理模块,所有阿里的安全产品在上线之前都会有这样的设计,包括安全的设计,包括安全的需求开发,上线的评估。因此作为阿里云非常重要的一个部分我们也有一个单独模块来实现云平台内部安全管理的设计;3、女娲,实现的是我们自动的诊断、修复能力等等。

在飞天平台上建立起我们其他的一些云的服务,比如我们的ECS、OSS、数据库操作系统服务器、存储等等都是基于阿里飞天分布式操作系统建立起来的。

阿里云究竟有一些什么特点?其实阿里云有两项关键技术:1、飞天的5K技术,就是我们有单集成5000台规模的能力,经历了大概六年时间,今年会将这个单集成由5000台升级到1.5万台的规模。目前从商用达到的规模角度来讲,阿里这是非常大的一个规模;2、大数据分析平台(ODPS),我们算是独一无二的,整体跨机房的调动、任务管理、授权、权限都是有非常详细的设计,比如我们的数据放在ODPS里去跑、去设计,用户担心数据都放在大数据平台,会不会把我们的数据拉走、丢掉,其实做了很多安全机制,数据在这里计算,计算出结果才可以输出我们的平台。

电商,双”十一”对阿里是最大的日子,也是对我们技术人员最大的挑战。这里主要有大量的业务复杂的环境,还有很多安全攻击都需要我们去保障、去护航。天猫去年支撑很大的交易额,这里我们的PAAS平台做到了非常大的支撑作用,我们支持恢复发布,比如现在是1.5版本的,上2.0,可以同时在这里面运行,在里面也会做一键部署,比如1万台机器一键部署,马上部署好,不需要投入大量人工做这样一些工作。

阿里云其实想把我们的安全解决方案、整个计算环境、存储环境都打造成一个不单单替代国外厂商的方案,包括安全在内的完整解决方案。除了硬件设备,我们采用国产的一些硬件设备,网络服务器的都有,这个基础之上,云计算平台、操作系统、大数据、中间件等阿里都有中间件补齐这些内容。阿里巴巴有一套安全防护体系,叫云盾,也是其中我们非常重要的一个组成部分。

安全定位和能力。

10年攻防、百人团队、构建生态、打造健康、纯净的云计算平台。去年我们成功抵御了全球最大的攻击,云盾保护了百万级用户的安全,每天有大量的一些DDos攻击或其他一些攻击都是我们做了这样一些抵御。

阿里巴巴集团安全部内有一块云计算安全,就是所在的部门,主要分为几块工作:我们要有安全产品的开发团队,主要开发的是系统安全产品,网络安全产品、应用安全产品,我们有后端也有一些安全通用开发,比如后端的安全管理平台、开放平台、安全运营平台等等,是我们第二个团队,其中还有一些安全研究,主要做一些APP研究、前沿技术、攻防、反欺诈等工作;威胁情报及解决方案团队;安全推广团队和标准和合规团队,等级保护是我们国家的基本国策,我们也一直在跟进相关保护工作。

云安全其实有两个保障,我们内部一直在提倡,一方面保障我们云平台的安全,另一方面保障我们平台之上业务的安全,所以在这里面我们做了很多的工作,接下来看一下具体的内容。首先和大家一起探讨云安全究竟是什么样的概念?很早之前我们在想云安全是利用云计算来提供的安全能力还是保护云计算的一个安全能力?我们内部来看云计算首先应该是利用云平台弹性的可扩展的一个能力来提出的核心思想,也就是说我们所有的安全方案都应该是符合这一点的,比如DDos攻击过来,可以弹性可扩的防护,云的解决方案不应该存在这些问题,应该是弹性可扩展的。系统高可用性,传统在做边界安全的时候都会有解决方案,防火墙、APS等等很多的安全设备串在网络的出口,一方面会对业务的可用性造成很大的压力,我们安全解决方案通常都是旁路部署对业务影响最低的一个设计模式,云计算也应该符合高可用的要求;云平台应该用大数据的技术来分析原来我们没有办法做到的,我们现在很多企业都做安全管理平台,收集到很多安全日志、安全数据,但是能够保存多久?其实日志量越大、收集的越多,保存的周期会有很大的挑战。数据收过来了,怎么去分析?怎么找到真正的问题?其实也是我们面临的一个很大问题,我想应该用大数据的问题解决现有的安全问题也是云安全应该要做的一些内容。

我们公有云的服务打造成一个宾馆模式,可以把它理解成五星级的酒店,也有四星级、三星级的,它的服务水平、安全能力会有所差别,这是我们在整体设计过程当中都会遵循考虑或设计的一些内容。在整体云安全防御体系里,纵深防御概念仍然存在,我们需要继续扩展、丰富、沿用下来。第一个是云安全的防御体系,保障用户平台的安全。这里阿里云盾防御体系,在网络安全上要能够有抵御DDos、网络入侵的能力,在主机上能够抵御主机的入侵,能够抵御暴力破解。如果服务向互联网发布出来之后,最大的风险其实不是DDos攻击,很多时候都会被破解,会去不断尝试,所以防暴力破解也是其中很大的一部分工作。这台机器在公有云上面,一般在北京分布,忽然在芝加哥去分布的,这时候可能代表你的机器有一些异常的行为,需要去报警、需要我们联合去检测来发现并排查一些问题。在应用层也和我们原有方案一样,我们应该有主动发现安全问题的能力,去搜索、扫描我们应用系统存在的安全漏洞,在这里我们提供了外部应用防火墙和外部分析。之前会有一个数据库防火墙,实现了数据库防控机制。

云计算平台也应该是安全的,这个安全的保障不是在外围做一些防御就OK,我们需要在平台内部也要做安全的设计和开发的一些工作。比如我们的ECS在设计的时候是不是应该增加一些安全的特性和功能?举例,涉密信息的防御,上了云以后和传统环境不一样的地方是有租户的概念,A租户租了一片空间,他退出了,走了,但是他的数据会在云里面有,虽然在云当中的数据是分篇保存,但是如果B租户不进来,不做签名的话,可能会出现一个风险,数据会被恢复出一部分。所以我们的服务器是A租户退出以后,将它签名,才能给到B租户,这些设计统统为了保障平台安全而做的内容,包括三副本的技术,盘古系统可以做到非常高数据可用性的能力,还有一些APC的隔离,安全隔离是一个要点,APC技术可以实现二级的隔离。

云操作系统的安全,即飞天操作系统也应该是安全的。在所有物理服务器上面都会针对我们的物理服务器做安全加固,然后部署我们的防入侵的模块,里面会有砂箱的机制,所有的进程都是跑在砂箱里的。信息安全不仅是技术的一个问题,很多时候是管理的问题。

多租户隔离。讲到云计算,多租户肯定跑不掉,CPU内存、存储、网络等等都需要隔离,做多租户隔离的时候考虑一些革新的点。网络需要做访问控制,访问控制怎么做?我们有安全组的虚拟防火墙,实现最基本的防护控制,什么样的能过,什么样的不可以过,这实现了云服务器的隔离。还有其他的隔离是通过标签打标记,或者基于身份认证的访问控制技术来实现整体云平台的一些隔离手段。

入侵是什么?防入侵从几个角度来看:物理网络,整个网络的结构也像原来一样,会把端口做一些控制,设置一些非法的接入,我们的路由器默认是回收,只有上层虚拟网络可以出去。宿主机上面做了一些操作,操作系统内核和组件都是精简的,符合业务安全规范等等一系列有保护。针对虚拟化来说还有非常重要的一个技术就是砂箱的技术,所有的程序和进程都是跑在我们的砂箱里,每个租户都有这样一个内容来实现它的隔离。

飞天整个云操作系统的安全其实做到了几层内容,一个用户也好,一个进程要访问我们的飞天或下层资源的时候都要经过:要经过认证,有一个认证中心检测它是不是可以接受访问,首先就会做认证。认证通过之后,就会看这个用户或这个进程有什么样的权限,能够做什么,就会下到权限管理中心,看看它能做哪些权限。有了权限之后就可以再往下其访问跑在砂箱里的进程还是其他一些文件,去访问文件。这是整个过程。

刚才讲到安全开发,大量信息安全问题其实由于在开发过程中一些设计的缺陷、编码的缺陷造成的,我们现在在需求开发阶段安全就会介入做一些需求的分析、威胁的建模、设计,直到上线前的安全检测。在整体上,飞天、云产品等等都是覆盖我们安全开发规范的。

云平台安全里面还有一点是高可用性,我们要通过补丁修复技术保证用户业务不受中断。补丁修复通常有两种,冷补丁和热补丁,冷补丁需要服务器中断打补丁,还有停止业务;热补丁修复业务部需要停止服务,可以通过正常服务去工作。阿里云是支持热补丁修复技术,可以在服务器服务不中断情况下对这些服务进行补丁的修复。今年年初的时候有一个案例XXA123的补丁,这个问题可以造成一些用户可以获取其他用户的一些数据,就会导致数据的泄露。阿里云是通过热补丁修复的技术将这些补丁打上。大家在看到Z曝出高危漏洞的时候,我们提前10-14天拿到一些漏洞的信息,你看到的时候其实已经修补掉了这些问题。

详细介绍一下虚拟专有网络。现在云计算有公有云、私有云、混合云,有很多模式,相信未来混合云是一个大的方向,如何将公有云上的资源更好为我们所服务,其实在这其中就可以应用到VPC的技术。比如在公有云上租了一片空间,几百台机器对互联网发布的业务,自己数据中心里面做内部办公的业务活数据处理一些业务,互联网只做发布,所以我们可以通过VPC技术将云上的数据中心和线下的数据中心形成一个打通。VPC很好解决了数据的隔离问题,VPC实现的是二层隔离,防火墙实现的是三层隔离。在VPC的内部,IP地址是可以自定义的,传统云计算里面,经典网络都是大热层网络,IP地址用户不可以自定义。

我们参与很多标准制定工作,包括云计算的基本要求和”等保”的一些设计要求我们都参与其中。其中我们也做了很多工作,去年年底公有云上一个部委级的网站通过等保三级的测评。去年年底发生的一个事情,2014年12月20号,阿里云上一个游戏客户遭受到了世界最大的DDos攻击,453.8G的攻击在250G以内都是云盾自动处理、侵袭这些恶意流量,当我们发现这个攻击已经非常高的时候,我们人工介入逐步将这些恶意流量清洗掉。十几分钟就打到了300G的流量,按照传统防御手段可能很快就会打趴下了,因为一方面受制于我们带宽问题,另一方面受制于设备瓶颈问题。

云盾体系,最早也是在阿里巴巴集团内部为内部系统提供一些服务,也是逐步推出来对外提供服务。直到今年为止我们逐步将云盾这套体系加入进来。

云盾解决三大问题:1、DDos攻击。2、入侵防御,从几个层次来讲,网络上我们会有网络上入侵防御的措施,实时会去拦截网络的入侵;在主机上也部署的主机防入侵模块;APP攻击防御,未来我们会在云盾里面增加APP攻击检测和防御部分的一些能力。3、弱点分析能力,除了能够防还要能够检测我们的一些问题,所以里面有一些针对应用系统的安全检测措施和能力。4、态势感知安全管理,我们会将大数据技术应用到云平台之上,会检测多维度日志进行关联分析,分析出这些安全的问题,去看究竟我们现在的网络状态是什么样的。5、关于内容安全的过滤和检测,网络上有很多色情、暴力的内容,尤其像阿里云提供公共云计算服务的提供商,对很多”站岗”也构成一些影响,比如挂马,给你一个其他链接,在你的网站里放一些反动、色情也好,对它也有一些影响,在阿里云内部有一些体系做到事前、事中、事后的防御。事前主要是我们绿网技术,能够检测非法一些黄赌毒的信息;我们应用爬虫技术将非法信息搜到我们的指南库里,未来会做一些对比,去处理这些问题;事后被动防御,我们会为所有阿里云一些流量检测里面有没有色情或其他一些信息。这是关于内容安全上的一些防护。6、云安全里面大数据是非常重要的一个点,我们将所有的网络流量全部分包分流过来,结合安全日志,利用大数据分析平台做安全运算,来计算有什么样的问题。目前为止利用大数据分析平台抓云备、抓僵尸网络。

回顾阿里云安全的特点,自主可控,有十多年的安全攻防经验,加上大数据一些能力和我们在合规方面的的一些能力,希望给用户或阿里云的伙伴提供更好的一个安全的能力。

谢谢大家!

上一篇:NSC2015公安部李明:云环境下的信息系统安全等级保护要求

下一篇:NSC2015徐华栋:HTTPS时代从HTTP到HTTPS的进化