IBM刘璐莹：开启认知安全新纪元

责编：rhliu ｜2016-11-14 15:46:39

刘璐莹：各位下午好我来自IBM安全系统部，我很高兴跟大家分享IBM在安全领域的新动作，希望和大家有所交流。

我们这个大会的主题就是智慧安全、连接赋能，看到这个主题我是非常兴奋的。在整个互联网安全的大会上，智能摆在了第一个位置。昨天我们在主会场一位腾讯云的同事作他的分享的时候说了一个故事我非常有感受。

他说前几年腾讯的内部还在讨论移动互联网是不是会发展起来，就像是我们前些年在谈云的时候，我发现我可能前几年还在跟我们的客户区科普云到底分几层，是IaaS、PaaS还是SaaS的时候，没过两年我们就已经在云大会上有专门的云安全的分论坛。

而今天我们已经在一个安全的大会上有了专门的人工智能和安全结合的分论坛，足见科技的发展真的是日新月异。也许一年前你觉得还不太可能的事情，今天有可能就变成现实。有点像14年、15年我们的总裁说IBM要转型，我们不要做软件公司，我们不要做硬件公司，我们要做一个认知和云的公司，这是一两年前发出的。

当时我还在想认知和云的公司？我是做安全的，是不是和我没有什么关系了？我是不是可以拿包走人了？结果我没有想到，就在这么快的时间里我已经向大家汇报人工智能和安全的结合，并且我今天汇报的结果是商用的版本，在今年的年底或者是明年的年初我们就会推出商用的版本。所以这已经不是未来，这就是现在。

我今天主要给大家介绍的东西是Watson认知安全，这是IBM做认知计算的一个品牌。大家第一次知道Watson这个名字应该是在2011年危险边缘的智力问答的游戏里，Watson和两位人类的冠军一起去参加游戏，最终Watson赢了。

其实在Watson之前也有很多类似的人工智能的比赛和游戏，包括“深蓝”以前也和人类下过棋，为什么这次大家会认为是比较有纪念意义的事件呢？它的原因在于，第一它和下棋不同，危险边缘的游戏是没有规则可言的，你的下棋是有棋路的，无论是下象棋、下围棋是有规则可循的，可是危险是没有边缘的。

请问你某某某年作家在什么时候写了什么东西，请问那个是什么？完全是人类的语言，而且横跨历史、艺术、音乐等各个领域。今天它是一个实时的、有竞争环节的一个比赛，所以Watson必须做出实时的、快速的、抢答的响应。

第三，更重要的是Watson在上台的时候是完全无人工干预的，也就是说它在比赛的过程中是没有IBM后台的工程师来指导它，完全是自己选择的。大家看过危险边缘这个游戏的话，你要选题，机器要自己选，选多少分、多少钱的题比较有把握，有时候你要double。如果机器没有选择这个double，而且它赢了才险胜人类的专家，所以大家才觉得它好像挺智能的。但我们不得不说，2011年的时候Watson还是一个玩儿的游戏，5年过去了，Watson变成了什么？

现在如果说Watson是什么？应该有很多的维度去说，但我只想说一个维度叫做Watson的API，2016年底的时候预计Watson会出50多个API，API代表的是什么？代表现在就可以利用Watson去达成我们的目标，里面有很多的API。

比如说QA，其实危险边缘就是一种深度的QA，这时候Watson就是应付QA的系统。你看到这里面有自然语言的理解，有情绪的理解，这里有个性的分析，这些现在都不是研究的领域，而是实实在在的大家都可以调用的API，你现在就可以把你的数据通过Watson来进行分析，所以这已经不是未来。

我们再看一下刚才这张图有显示出目前基于Watson的系统有超过1万个，我这里列举的一些可能大家会体会到的，比如说大家可能都穿过Under amer（音）的运动服，可能都带过Apple的手表，可能都去希尔顿酒店去过，可能都开过通用汽车的车，这些系统已经在实实在在在使用Watson的技术。

包括今天四川的医院已经在使用Watson用于治疗癌症辅助的系统来帮助相对来说医疗条件没有那么发达的地区的医生们来诊断这些疑难杂症。所以可以看到，人工智能、Watson、认知计算，至少对IBM来说我们不是一个游戏、不是一个噱头我们是真真实实地向这个方向发展。

另外还有一个数据，因为大家知道IBM每年有很多的专利，但在2015年的7000多项专利里有近一半是跟人工智能、认知计算相关的，所以可以看到这个转型是真的在转型。

回到今天的主题认知安全，安全的事态实际上没有减轻，并不因为我们开发了一系列的好用的工具而变得有所环节，反而云、物联网、移动应用给我们的安全带来了更大的、更多的暴露的风险。所以我们安全的人员，每一个安全的运维的人员，安全的分析员永远面临着更多的威胁，更多的资讯更多的需要保护的管道。

而我们的企业可能没有那么多的安全专家，每个企业可能并没有那么顶级的对于所有的漏洞、所有的攻击方法都很清楚的安全专家来保护自己的安全，所以这个就在我们面临的安全威胁和我们拥有的能力和知识上存在着一个落差。Watson在安全方面的第一个落地点就选择了这样的一个落地点，希望能够弥补这样的落差。

所以认知安全，我们的第一个商用版本是希望运用认知计算在非结构化的数据中提升现有的安全技术。

什么是非结构化的数据？昨天主会场上大家看到了类似的图这里把我们的安全资讯分成了两个部分。上面是传统的安全资讯，里面包括我们每周收到的安全事件和报警包括日志的活动和漏洞扫描完的结果，包括情报的厂商推给我们的安全情报或者是舆情，这些数据都是结构化的，都是安全运维人员可利用的数据，但依然有大量的数据是我们所不可利用的。

2013年Forrest杂志上有一个研究认为带这个领域里，我们仅用到了8%的数据，更多的数据可能没有利用到，因为它们是非结构化的。这个非结构化的数据可能来自于报道，可能来自于安全机构订阅的信息，他们没有被标准化成规范的格式，所以在你日常的安全运维中很难利用到下面的这些信息。可是这些信息里却蕴藏了大量的、丰富的知识。

在进一步深入之前我不得不把我们现在已经熟知的安全智能和认知安全做一个区分。如果我们把安全的防护或者是维护的机制分成几个阶段的话，第一个阶段无疑是城堡与护城河式的保护。从2005年开始，以数据分析、大数据、SIEM平台、SOCK、安全情报为特点的安全智能平台出现了。

大家知道我们在2010年的时候说到了QRadar这家公司，虽然我们一直定位在SIEM公司，但他们这家公司一直把他们自己的产品认为安全智能产品，不是日志收集产品不是事件分析产品，实际上它就能实时地分析大量的数据，包括了日志信息、漏洞信息、数据流的信息，外界情报的信息，用来分析现在的安全状态，这是2005年以后的安全智能的领域。

从2015年开始我们引入了认知的安全，它和我们之前的安全智能的时代的区别是什么呢？通过这张图和大家一起来解释。如果我们把整个的安全的分析、处理、解决的流程里的参与者分成三方的话，可能大概有这么三方，一个是人类的专家，安全分析师，一部分是我们现在已经在使用的安全智能分析平台，另一部分是认知安全。

实际上任何的参与者都有它的长处和短处，比如说人类专家更擅长的是一般的常识，对于模棱两可的情景的判断，而我们现有的智能分析系统更强地在于资料的关联、找出模式、异常检测、排定优先级、数据可视化、工作流程。

认知帮助你做什么？它在这两者的基础上帮我们做的是非结构化的分析，我们都知道SIEM平台用的还是结构化的数据，无论是漏洞数据还是情报，大家都有数据交换的标准的格式，认知计算更着重在非结构化的数据的分析上。由于使用了人工智能技术更着重使用在自然语言的表达上，更完成自然与答案的场景，我们很多的安全分析师认为出现了这样的场景，出现了这样的漏洞我怎么办？

这是一个问与答，你希望有人来回答你的问题。另外是机器学习，当没有模式可循的时候，如何来寻找模式？消除障碍，怎么判断哪些数据对你是有用的，哪些是无用的，另外是权衡的分析。

所以在整个的认知计算的环境里，我们说认知计算或者说Watson有这样的三个特点，我们称之为URL特点，U是是理解，R是推理，L是learning自己去学习的过程。我简单用一个小场景跟大家解释Watson 认知学习如何帮助大家日常的安全运维的活动。

我们这里有一个可爱的安全分析师Rafeal，他每天都要兢兢业业地工作，他看到了告警平台上的告警，说我可能有一个蠕虫，可能有一个恶意的代码，我可能有一个从外面的情报公司购买的情报说原来现在什么什么东西正在泛滥，可能会想我公司会不会有这样的场景，我需不需要做提前的预防，有很多是来自于安全的通报，原来我的兄弟公司遭遇了什么什么事情，我这个事情一定要预防，因为我已经被通知了有这样的风险。

他阅读这些内容的时候假设用了一个小时来阅读这些内容，接下来要采取行动，说已经有这样的风险我怎么办呢？可惜，我不太懂这个风险是什么，它是一个新的风险，又花了几个消失在线上搜索、寻找说这是一个什么东西，它影响是什么？它如何发挥作用，它的特征是什么，通过网上自主地学习，学习到这些知识，可能接下来又花了几个小时的时间在自己的系统里做调整、配置、搜索说我的系统里到底有没有这样的威胁？

你可以看到，一个威胁、一个全新的威胁Rafeal就花了这么长的时间而且不见得可以获得完美的结果，如果在座有做情报的公司，每天推送给你的客户多少条情报，他要怎么来处理这个情报，就是这个问题，IBM也是一家情报公司，我们也推送情报，他如何利用这些信息。对Rafeal来说，他需要更多的体验需要更多有经验的专家的咨询，也就是说需要有针对性的方案。

这时候Watson就可以帮助你的棒，我们用Watson URL的技术来帮助拉菲尔来解决这样的问题。Watson在处理问题的过程中分成获取、学习、测试和经验。这几个步骤，其中获取是它学习的过程，学习的过程包括了我们刚才已经看到的企业已有的绿色的这部分的企业级的安全分析的结果，刚刚提到了SIEM的平台和情报的平台，可能还有漏洞的平台，操作系统的平台和应用的日志的平台，这些都是Watson的数据源也是我们分析的基础。

但你有更多的信息来自于人类衍生的安全性智慧。这部分就是拉菲尔在他不知道这个威胁是什么的时候去网上搜索的这些知识，他可能搜到了一篇博客，可能是搜到了一个报告，可能搜到了CDE的网站上对这个漏洞的解释，这些都是非结构化的数据，这些都是Watson的数据源。

接下来Watson进行学习，我们在过去的一两年里都在帮助Watson理解什么是安全，简单地说，当它看到了蠕虫这个字眼的时候，它应该把它理解成医学领域的蠕虫还是IT安全领域的蠕虫，我们来教导它如何来懂安全。或许现在它可能就要说，原来对一个恶意软件我可能需要一些标签，一些方法来唯一地确定它，这是Watson自己懂得的，如果我看到一个恶意软件，我需要有名字，需要有它的感染的方法。

接下来当它懂得了什么是安全之后，它就会对这些安全的隐患、安全的漏洞进行建模。其实昨天在主会场上我们的架构师讲过一个例子，是给一个人做profile，这个人可以是黑客、是员工，除了给人做profile之外我们也可以给安全做profile，比如说它会首先对一个恶意的勒索软件进行注释，能分析到一个叫Locky的软件类型是恶意软件，它的功能造成了什么样的结果，它的行为是什么？它的规则是什么？

它为这个软件做成了一个profile，也就是形成了最后的知识的图谱。形成了这个图谱之后它和人类就可以用自然语言来做交流，它会告诉拉菲尔说，你不是想问locky是什么吗？它是一套勒索软件通过垃圾邮件中的恶意.doc文件进行干扰，它已知的包含什么什么，可以交互形成知识的图谱。

接下来Watson最重要的特点是可以到外部的资源上去学习，所以当你问了一个问题，你的知识图谱进来了，哪些漏洞与Locky相关，可以问Watson这样的问题，它就会到浩瀚的人类的安全性衍生知识里来搜寻说哪些知识是与此相关的，最后给出评价和加权。Watson最强大的一点是基于证据的推理，为什么说这样的漏洞跟locky是相关的，我的证据链如何为每个证据加权，这是它最厉害的一部分。

到此为止，Watson可能完成了一个更好的搜索引擎的功能，原来拉菲尔需要自己去Google、去百度查找一些东西，自己要分析哪个文章是有用的，哪个是没用的，现在Watson帮你做了这件事。接下来我认为更好的部分是Watson不仅仅是帮你做搜索、分析和加权，Watson可以跟你的系统集成起来。

如果大家对我们的QRadar，可以把它关心的内容和现有的网络环境联系起来，比如说这个是X-force，我们也有情报的平台，是我们的X-force实时监控出来的一些安全的情报，哪里发生了什么事情，最新的一些情报，通过这个情报就可以了解，原来现在正在发生一间什么事情，什么东西爆发了，什么东西很流行，这个时候Watson就已经给你一些Watson inset。当你还不知道什么是威胁的时候，Watson会告诉你它是什么。

接下来Watson会分析新的威胁和你的环境的关系是什么？你的环境里面的网络拓谱是这样的，我们发现好象有两个、可疑的恶意的软件，以及如果我们发现了如果有一些蛛丝马迹，并且确定了你的某一台机器可能感染了这样的恶意的软件之后会帮你分析其他的服务器是否也受到了恶意软件的感染。我的证据是什么。

大家可以看到从这样一个小的安全的运维人员每天会遇到的例子中就会看到认知计算已经在安全当中有了一定的应用，它把你不知道的事情展示出来，并且和你实际的化学结合起来，所以在原有的企业级安全分析的基础上加入了Watson的计算我们认为可以取得三方面的比较好的效果：

第一，取得更卓越、更准确的洞察，第二可以减少安全的运维人员和最新的知识、最新的技术之间的落差。第三，节省宝贵的时间与资源。我们只是从一个小小的案例来了解Watson可以帮我们做这件事，这件事的并不仅仅是Watson和认知安全的产品的落地。

我们以前更关注的是事前，甚至是更关注事中，要告警、要分析、要建模，现在把它延伸到了事后，出现了这个问题怎么办？新的威胁和我有什么样的关系？我告诉你可执行的动作就是这样的，你应该去检查你这几台机器，我们认为这个是人工智能技术或者是认知计算技术在我们的安全领域里的大大的贡献。当然，人工智能技术在安全领域中的地位还是在发展的阶段，未来我们可以想出更多更多的场景来帮助企业、帮助客户做更好的安全的运维的工作。

我的演讲就是这些，谢谢大家！

上一篇：光大柴如军：互联网背景下信用卡风控的挑战与应对

下一篇：微软邵江宁：基于智能的网络安全的对策