一套基于GAN的验证码AI识别系统，能在0.5秒之内识别出验证码

责编：gltian ｜2018-12-20 13:08:48

在网上如何区分机器人和真人？目前基本上还是需要依靠验证码技术，但事实证明，这项已经用了近20年的技术马上就要宣告死亡了！

验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自动区分计算机和人类的图灵测试）的缩写。它是一种区分用户是计算机和人的公共全自动程序，被广泛应用于垃圾邮件过滤、在社交网络上，识别并防止机器人账号发布冒充真人的内容（这些内容很可能包含垃圾或欺诈信息）。然而现如今，在像Facebook这样的社交媒体平台上仍然存在规模庞大的虚假账户，这也清楚地表明这种机制并非万无一失。

最近，在有关图像识别机制和机器学习的一篇题为《又一个文本验证码解算器：基于生成对抗网络（GAN）的方法》的研究论文中指出，设计出能够更为精确地检测计算机和人类的自动化程序非常重要，为了实现这一目的，研究人员使用基于深度学习方法的人工智能技术开发了一套新的算法。

这个新系统非常有效地解决了验证码安全和身份验证系统存在的不足之处。此外，它还可以大大提升现行识别器对各网站验证码的识别准确率，以确保实现最佳防护。

据悉，这种新算法是由中国西北大学、英国兰卡斯特大学以及北京大学的计算机科学家们共同开发的。该论文声称，这种新型解算器（solver）将能够提供比基于文本的方法更高的准确率。它可以轻松地破解以前的攻击系统无法破解的验证码版本。此外，该解算器的速度也是无与伦比的，能够在短短0.5秒内识别出多种验证码。

早期基于文本的验证码是该技术的第一次迭代，目前在网络安全性方面已经不再适应时代发展需求。这种验证码涉及使用字母和数字的混合，以及其他诸如遮挡线之类的特征，以此来区分计算机和人类。归根结底，基于文本的验证码背后的基本思想是，人类可以轻松地识别出字母和数字，而计算机不可以。

据了解，这项最新成果的新颖之处在于，它使用了生成对抗网络（GAN）技术来创建训练数据。该技术涉及教授验证码生成程序以创建大量与原始验证码无法区分的训练验证码。然后，这些数据就可以被用于快速地训练解算器，再针对真正的验证码进行测试。如此一来，使用机器学习的自动化验证码技术就能够减少识别和手动标记验证码以训练软件所涉及的时间和精力。

该研究的发起人之一、兰卡斯特大学计算与通信学院副教授Zheng Wang表示：

这是第一次使用基于生成对抗网络（GAN）的方法来构建解算器。我们的工作成果表明，当前这种基于文本的验证码方案所采用的安全功能在深度学习方法下特别容易受到攻击。恶意行为者可以毫不费力地针对基于文本的验证码方案发动攻击。

论文介绍称，虽然深度神经网络在图像识别方面表现出惊人的性能。但是，想要构建成功的模型，通常需要数百万个手动标记的图像才能实现顺利学习。而这套系统不需要收集和标记数以百万计的验证码文本数据，只需要500组数据就可以成功学习。

由于新的解算器需要最少的人为参与，因此很容易重建它以适应新的或修改的验证码方案。目前，该系统已在33个不同的验证码系统中进行了成功测试，其中11个来自世界上最受欢迎的一些网站，包括eBay和维基百科等。

图中数据为该系统与现行识别器对各网站验证码识别准确率的对比，可以看到，大部分测试中的成功识别率都得到了大幅度提升

该研究的主要学生作者Guixin先生表示：鉴于实验的方法对大多数文本验证码方案都取得了很高的识别成功率，因此建议网站应该弃用验证码。

研究人员还认为，对于网站而言，是时候开始寻找其他验证方法了！此外，研究人员还建议网站应该考虑使用拥有多层安全性（例如用户的使用模式、设备位置甚至生物识别信息）的替代检测措施。

完整论文地址：

http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf

上一篇：50天53个漏洞：Adobe Reader 模糊测试结果惊人

下一篇：全球医疗保健行业IT安全市场：趋势与机会