安普诺张涛：再谈webshell检测

责编：mhshi ｜2017-06-15 13:54:01

一、关于Webshell。

分为Web和shell，Web相当于对外开放的Web服务，Shell是用户与操作系统之间的一个接口，操作过程中更多的是脚本语言，Webshell某种情况下是网站密码。它更多的是对网站高危操作，具备高危操作权限。支持的脚本是ASP、PHP、ASP.NET、JSP等。什么情况下Webshell需要呢？一般是我们对网站进行渗透测试后期时，发现这个网站没有更高权限了，但我们希望它提权，二是长期供应，这时候Webshell就会想到它。

Webshell主要功能。

除了一般的环境探针、资源管理器、文件编辑等，还有权限提升，上面一般会带内置的POC，还有DDoS对待网络挂马。还有黑帽SEO，前段时间一个大型网络厂商出现一个症状，输入自己官方网站URL没有问题，可以正常访问，但当他通过百度或者搜狗、360搜索引擎搜索时，直接跳转到菠菜网站，当我们后期介入它的应急保障之后，分析跟踪发现它的服务器存在一些安全漏洞，被植入了14个各种类型的Webshell，相当于是个跑马场。

Webshell的分类。

业界一般会分为三大类：大马、好马和一句话马。大马是什么事儿都能干，前面的基本功能、拓展功能都具备；小马作为文件上传，为上传大马做准备的一个跳转平台。一句话木马相对比较精简一些，后面是一句话木马的类型，数据模型和数据传递。

Webshell的特点。

它会调用一些系统高危函数，比如eval、system，会有一些操作系统文件函数，比较多的是Webshell相对一般网站正常网页访问IP会比较少，访问次数也比较少，相当于是个孤立页面。但孤立页面不一定就是Webshell，比如隐藏性的管理后台也存在这种情况。Webshell在系统日志里是看不到的，主要是在网站Web日志，访问Webshell页面时会产生访问数据。

二、针对Webshell的检测。

第一，静态检测（静态特征检测）。

抽取它的典型特征，比如一句话木马有一些常见代码块，不同的攻击者会对它进行改造，大致模型是不变的。高危函数，修改时间是不是相对其他文件不一样。井台核心检测依然匹配它的核心特征，比如正则、文件时间聚类、文件关联度计算。典型Webshell的静态性特征，检测时目前市场上商用工具和看用工具基本都能支持。

它的特点是基于规则，会比较快，但漏报、误报会比较明显，一般的Webshell一句话木马变形混淆会比较多。

第二，日志分析检测。

个别访问，Webshell页面访问次数比较少，访问总数也比较少，上专Webshell到Web目录时会自动化重命名，一般是随机化的比较长的名称。在GET请求里也有相对比较明显的控制指令。

日志分析也有一些优缺点，网站新增页面，在一些大的网站会比较明显，用日志分析方法，但在一些中小型网站时和传统的Webshell检测、正常网页区别不是特别大。毕竟是日志分析，相当于是事后的，难以触及运维Webshell自身本质，就是它的脚本语言。

第三，动态检测。

类似于一个沙箱机制，不管云平台还是服务器本地，Webshell分析检测层我们会用hook调用它的可疑函数，这是相对比较精确的，但也有一些问题，这是我们在实践过程中遇到过，在本地会有一些开销，而且开销还是比较大的，在用户的服务器上。如果我们把它放到一个云平台上去做时，有很多Webshell是加密的，如何绕过它的加密机制或解决它的自动执行问题，这是在云平台上需要解决的问题。

第四，统计学检测。

除了之前几个方法以外，基于统计学的，主要是长字符串，一般Webshell用base646（115）密码之后字符会比较长，还有信息熵、重合指数、压缩码的方式，来看卡Webshell的可能，激励的可能性比较大。基于统计学的，也有一些漏报误报的情况。

三、悬镜自身工作理念。

深度学习。

我们采用深度神经网络算法。神经深度网络具有端到端的学习能力，可以将我们研究对象原始表示方法直接输入到模型中，从而避免人工设计特征带来的劣势，只要是特征，就涉及到特征颗粒度问题；一定会对原有信息有一定损耗。脚本原码输入模型，我们做预处理，相对原先的脚本原代码，我们做了去噪，比如空格、换行符等做了处理，对字符串的线性结构转换成更清晰，更紧凑的树型结构，比如抽象语法树。还涉及数据压缩和向量化技术。

我们提出一些流水线整个检测流程，包括预处理、样本生成和检测模块。（图）我们实现的关键技术是基于词法单元流的循环神经网，主要流程包括预处理模块，样本生成模块、检测模块。预处理模块，我们做的主要工作是分词，分词做完之后我们还可以对一些加密文件根据再处理，处理完再做基本的过滤和替换。接下来是样本生成模块，考虑到不同的脚本文件它生成的词法单元流的差距较大，比如一个大马形成的我们对应处理的文件有几万个节点，但一句话木马有几十个，差异巨大。

我们采用了两种方法，一是完全随机的采样、抽样，二是采取贪心算法的抽样。最终形成利用Word 2 vactor（音），将它向量化提交给我们的机器学习模型。

预处理模块主要做了一些词法分析，按照字符读取脚本原代码，最后将属于同一个词法单元的字符组合在一起，也就是词法单元对象，我们并为其添加一些属性。

我们在实践过程中也遇到了加密的情况，对字符串进行尝试解码，做完解码之后再做尝试词法的分析，直到结束。接下来我们对字符串、整数、浮点数的常量按统一规则做整体的替代。比如马化腾、马云，我们认为在不同上下文中其实代表了是一类，李彦宏标记时我们也用一类，类似于用shot int种统一的字符串常量统一标记。

神经网络，这是我们在实践过程中经典的RNN神经网络模型。为什么用这种模型呢？主要原因是我们的词法单元流向量长度不一，它具有上下文的关系。大家如果熟悉RNN算法的话应该知道，它对序列化处理能力，特别是添加了一些记忆单元处理得比较出色，向量1、向量2的我们提交的一些输入，通过LSTM，长短期进行二层处理，处理完交给我们拼接层，再进一步将中间结果处理之后交给三层全链接层。层数的一层两层三层，基本根据大家在训练中的经验进行调仓，当然层数处理复杂问题越强，但带来的训练损耗也会越大。

除了TNS-RRN技术之外，我们自己尝试创新发明了一个基于抽象语法树的递归循环神经网络，它相对于前面的TNS-RRNN最主要的区别是，对抽象语法树，语法分析做了更进一步的处理，在前期预处理主要做了抽象语法树的构建。前面也重点强调了，一般脚本文件的大马抽象语法树有上万个节点，一般木马是几十个节点，差距是巨大的，这样的情况下，我们需要对抽象语法树进行进一步压缩。我们实心的路径是，对一般的抽象语法树会用一组规模较小的抽样指数进行替换，最后交给检测模块LSTM进行处理。

抽象语法树主要是语法分析器对词法单元流进行语法分析，构造出一个抽象语法树，比如图中加法复制语句可以自然构造出一个抽象语法树，但这个抽象语法树里的噪音还是比较多的。接下来我们考虑对这个树进行简化，一是分叶节点，叶节点通常存放标量信息，例如自定义变量名、常量值等，我们需要把叶节点单独提取出来进行亮相化表示，后期训练直接提交给训练模型。二是辅助节点基本提供的是辅助信息，对我们后续的构造没有多大帮助，经过反复实验，我们是将一些辅助信息删除，最后得到简化后的抽象语法树。

叶子节点向量化表示。

深度学习模型核心是数学计算模型，它的输入是向量化表示，操作方法从两个方面入手，一是危险函数，构建危险函数列表，将叶子节点包含的危险函数用词袋模型表示。二是统计特征，统计学上，主要是5个，NeoPi方法中字符串长度、重合指数、信息熵几个重要指标考虑进去，嵌入到程序代码和编码中，其中重合指数代表的是字符串序列里任意的一段函数重合的概率，重合概率越大代表相当于它是个正常文件，一般Webshell经过编码或加密之后随机性会比较大。

基于抽象语法树的递归循环神经网络的检测模块。

我们依据语法树的递归思想，一般一棵树的向量化表示主要由它的根结点及子树结合的根节点，通过非线性结合运算而成。前面的叶子节点向量化表示主要是通过特征工程，比如它的一些规则，统计学的方法把它形成我们向量化表示，而对于子树集合的向量化表示，通过依次将它们输入到LSTM长短期记忆层进行计算而成。最后提交给拼接层，由拼接层将中间处理结果提交给全链接层，最后做预期处理。

这是我们通过深度学习得出来的一个结果，无论是在准确率还是召回率上，前几年有比较火的SVM知识向量机的方法大幅度提升。我们对前两种方法做了综合，将中间结果提交给选型训练结果，准确率和召回率上有进一步提升。通过市面上一些规则检测的产品还是有明显优势。这里要提一下，这也有今后需要改进的地方，比如检测时间，SVM是300毫秒左右，在检测率比较高的计算模型能达到900毫秒，这对于实际的商用部署还是有一些影响，所以我们将它部署到我们GPU云平台上。

我们全球安全实验室在Webshell检测方面所做的工作。

将研发基于词法单元流、神经网络和抽象语法树，递归循环神经网络Webshell检测等技术，这个技术已经申请了专利，将这些技术应用到我们产品神经复习卫士（音）当中，并已经提供商用。在Web安全威胁深度检测上，去年12月份全球安全实验室发布了第一款国内第一看用深度学习SQL注入检测并提供公测，也得很多团队进行深度学习，正式发布出来的用于SQL注入检测的我们当时是第一家做到的。

除了Webshell检测以外，语言分析技术和深度学习技术结合，也将在恶意代码分析、漏洞挖掘等诸多安全领域发挥重要作用。

上一篇：天空卫士杨明非：核心数据资产的管理和保护

下一篇：农信互联李元龙：登山之路——互联网公司安全建设的心得体会