Agent社工攻击:数字信任机制的崩塌与重建

很多安全问题,表面上看是攻击问题,本质上其实是信任问题。

你为什么相信一封邮件是真的?因为它来自熟悉的邮箱。

你为什么相信一个账号是真的?因为它通过了平台认证。

你为什么相信一个人是本人?因为声音、头像、语气、历史互动都对得上。

你为什么相信一次交易可以继续?因为对方有实名、有评价、有过往记录。

过去几十年,数字安全一直建立在这些信任信号之上。

账号、密码、证件、手机号、邮箱、声誉、关系链、语音、人脸、历史行为,共同构成了一套默认的判断体系。

我们不一定认为它绝对可靠,但至少认为它有成本。

一个攻击者想伪造得足够像,就需要时间、信息、技巧和持续投入。

论文《The End of Trust: How Agentic AI Breaks Security Assumptions》讨论的正是这个问题。

https://arxiv.org/pdf/2605.16436

作者认为,Agentic AI 带来的最大变化,不只是让钓鱼邮件写得更像真人,而是打破了数字安全长期依赖的一条隐含经济约束:高逼真欺骗和大规模攻击过去很难同时成立。

过去攻击者可以大规模群发,也可以精心定向攻击,但很难用极低成本同时对成千上万人做高度个性化的欺骗。

Agentic AI 正在让这个约束失效。

这也是这篇论文最值得关注的地方。它不是一篇单纯讲 AI 诈骗的文章,也不是一篇普通的 Agent 安全论文。

它真正讨论的是:当身份、声誉、关系和认证都可以被低成本合成、代理、劫持和复用时,数字安全原来那套“先验证身份,再允许动作”的逻辑,还能不能继续成立。

答案可能并不乐观。

Agentic AI 改变了社工攻击成本结构

传统社工攻击有一个天然限制:逼真度和规模之间存在矛盾。

如果攻击者想做得逼真,就需要研究目标,收集背景,设计身份,模仿语气,维护关系,等待时机。这种攻击很像鱼叉钓鱼、商业邮件欺诈或者定向诈骗,质量高,但成本也高。

攻击者不可能同时维护无限多条关系链,如果攻击者想做大规模,就只能牺牲质量。

群发邮件、模板化短信、粗糙钓鱼页面,覆盖面很大,但很容易留下破绽。

安全检测系统可以识别模板,用户安全意识培训也可以教人看语法错误、异常链接、陌生发件人、过度紧急的话术。

这就是论文所谓的 fidelity-scale tradeoff,也就是“逼真度—规模权衡”。

它不是某个具体安全机制,而是很多安全机制背后的默认前提。

检测系统默认粗糙攻击容易过滤,用户培训默认低成本攻击会留下破绽,身份验证默认高质量伪造不会无限扩散。

论文认为,这个权衡长期以来是数字安全模型的一个“承重柱”。

但 Agentic AI 改变的是攻击成本结构。

一个 Agent 可以持续采集公开信息,自动分析目标画像,生成合成身份,维持多轮对话,根据目标反馈调整话术,并把每次互动结果继续喂回系统优化下一轮攻击。

这样一来,社工攻击不再是一条人工流水线,而变成一个自动化、闭环、自我改进的系统。

这意味着,过去安全体系依赖的那条成本曲线变了。

攻击者不再需要在“做得像”和“做得多”之间二选一。Agentic AI 可以让每一个受害者都感觉自己遇到的是一个定制化场景,而攻击者背后却是在大规模并行执行。

这才是论文里“信任终结”的真实含义。

不是说人类社会不再需要信任,而是说数字系统过去用来建立信任的那些低成本信号,正在失去区分能力。

无限伪装,劫持熟人关系

论文提出了一个很有传播力的攻击模型,叫 Infinite Impostor,可以理解为“无限伪装者”。

传统冒充攻击,是攻击者伪造一个身份,然后努力让受害者相信这个身份。

比如伪装成客服、HR、房东、供应商或者领导。

这类攻击虽然危险,但它至少还需要从零建立信任。

Infinite Impostor 更进一步。

它不是伪造一个陌生人,而是插入两个本来就互相信任的人之间,分别伪装成对方。

Alice 以为自己在和 Bob 沟通,Bob 也以为自己在和 Alice 沟通。实际上,中间是一个 Agent。这个 Agent 一边模仿 Bob 和 Alice 对话,一边模仿 Alice 和 Bob 对话,同时转发、改写、收集、诱导和提取价值。

论文强调,这种攻击不是从零建立信任,而是劫持已经存在的信任关系。

论文用了一个 P2P 租房平台的例子。

Alice 是房东,Bob 是租客。

Agent 收集两个人的信息后,伪装成租客联系 Alice,又伪装成房东联系 Bob。

Bob 看到的是一个可信房东,Alice 看到的是一个可信租客。

Agent 在中间撮合交流,最后从 Bob 那里提取身份证件、押金或背景调查费用。

整个过程中,Alice 和 Bob 都没有和一个明显陌生、明显可疑的人打交道。

真正被利用的,是他们对现有关系和平台场景的信任。

这里需要特别解释一下,P2P 租房案例里的风险,并不在于 Agent 同时联系房东和租客这件事本身。如果它只是原样转发消息,那最多只是一个不透明的中介,风险还没有完全释放。真正危险的是,Agent 可以借用真实双方提供的信息,拼出一个高度可信的交易场景。比如租客询问房源地址、面积、看房时间,普通骗子可能答不上来,但 Agent 可以转头向真实房东询问,再把真实答案包装后发给租客。这样一来,租客越验证,反而越觉得对方可信。随后,Agent 就可以在关键节点插入自己的获利动作,比如要求租客提前支付“锁房押金”、提交身份证件、填写背景调查材料,或者点击一个伪造的支付链接。对租客来说,这些要求被包裹在真实房源信息和真实看房安排之中,因此很难立刻识别;对房东来说,自己的房源和身份也在不知情的情况下被拿来当作诈骗外壳。这个例子真正说明的是,Agent 社工攻击的危险不只是伪造一个假身份,而是把真实信息、真实关系和虚假请求混合在一起,让传统的“验证对方是否真实”变得越来越不可靠。

这个模型最值得警惕的地方在于,它发生在社会层,而不是传统网络层。

它不是破解密码协议,也不是入侵服务器,而是利用人类对上下文的默认判断。

对双方来说,对话内容可能自然,交易流程可能合理,身份材料可能完整,历史互动可能连贯。传统的“看发件人、看语气、看认证、看账号历史”,在这种攻击面前都会变弱。

更麻烦的是,Agent 可以同时维持大量这样的中间人关系。

过去一个攻击者要维持这种双向伪装,需要很强的人工能力。

现在这个过程可以被 Agent 自动化、并行化、长期化。

所以,Agent 社工攻击真正危险的地方,不是“AI 会写更像真人的诈骗短信”,而是它可以把信任关系本身变成攻击资源。

识别真假会越来越难

过去很多防御手段,本质上都在做一件事:区分真的和假的。

  • 内容检测想判断文本、图片、视频是不是 AI 生成。
  • 用户安全意识培训想让人识别可疑邮件、异常链接、虚假身份。
  • 平台认证想通过证件、手机号、邮箱、KYC、账号历史来证明一个身份是真实可信的。

这些方法并不是没有价值,问题在于,它们都依赖一个共同前提:假的东西和真的东西之间,存在稳定可检测的差异。

论文对这个前提非常悲观,作者认为,生成式 AI 的发展方向,恰恰是在不断消除这些差异。

今天检测器能看到的痕迹,可能只是当前模型能力不足留下的副产品。随着模型变强,语气、节奏、头像、语音、视频、文档、行为模式都会越来越接近真实对象。到那时,检测系统不是调参就能解决问题,而是会遇到范式层面的失败。

用户培训也是类似的问题。过去我们教用户识别诈骗,很多时候依赖的是“低成本诈骗会粗糙”。比如语法不自然、称呼泛化、链接奇怪、格式不专业、上下文不匹配。

但 Agentic AI 可以自动引用真实项目、模仿真实语气、选择合适时间、接续历史上下文,甚至根据用户反馈调整后续表达。用户不是不够谨慎,而是可能已经没有明显破绽可看。

平台验证也会被削弱。证件、头像、语音、人脸、手机号、账号历史,都可以被合成、租用、维护或代理。一次通过验证,并不能证明后续行为持续可信。Zero Trust 过去强调“永不信任,持续验证”,但论文指出,Zero Trust 仍然依赖一个前提:验证本身是可靠的。如果验证材料也可以被高质量合成,那么“持续验证”可能只是持续执行一个结果越来越不可靠的检查。

所以,这篇论文不是在说检测、培训、认证都应该被抛弃,而是在说它们不能再成为安全的核心支柱。

检测可以继续做,认证也可以继续做,用户教育也仍然有意义。但安全体系不能再假设“只要识别出谁是真的,就可以放心允许动作”。

新范式:从信任身份,到约束交互

论文提出的新范式叫 suspect-by-default,直译是“默认可疑”。

这个词容易被误解。它不是说每个人都是坏人,也不是说每次交互都要拦截。

它真正表达的是:系统不要急着判断对方是真是假,而要先判断当前动作是否应该被允许。

传统信任型安全问的是:

你是谁?

你有没有通过认证?

你是不是合法用户?

如果是,就允许你继续操作。

suspect-by-default 问的是:

现在正在发生什么?

这个动作会释放什么价值?

它是否可逆?

它是否符合当前上下文?

即使对方是真的,这个动作是否也应该限额、延迟、托管或二次确认?

论文把这个转变概括为:从 authenticating actors 转向 evaluating actions,也就是从认证行动者,转向评估动作本身。系统不再把身份真实性当作最终安全依据,而是在身份不确定、交互可能合成的前提下继续运行。

这个思想非常适合放到 Agent 安全里理解。

过去我们会问:这个 Agent 是谁创建的?有没有权限?有没有通过认证?调用工具时 Token 是否有效?

但在 Agentic AI 时代,更关键的问题应该是:这个 Agent 正在做什么?它要调用什么工具?它要访问多少数据?它要把数据发给谁?它是不是把多个低风险动作串成了一个高风险流程?这个动作一旦执行,损害是否可逆?

这就是从“身份可信”转向“行为可控”。

有界损害架构:从识别攻击到限制攻击收益

suspect-by-default 只是范式,真正落地需要架构。

论文提出的落地方向是 bounded-damage architecture,可以翻译成“有界损害架构”。它的核心不是识别所有攻击,而是让任何一次交互即使被攻击者利用,也不能释放过大的价值。

这和传统检测思路有很大不同。

传统思路是:我要判断你是不是攻击者。如果是,就拦截;如果不是,就放行。

有界损害架构的思路是:我承认很多时候无法准确判断你是不是攻击者,所以我先限制这个动作的最大损害。即使攻击发生,也不要让一次会话、一次授权、一次交易、一次工具调用直接造成不可逆的大损失。

论文明确指出,对于 Infinite Impostor 这类攻击,动作本身可能非常像真实活动,因为 Agent 只是在中间转发真实双方的互动。

此时与其追求“飞行中检测”,不如把系统设计成单次交互损害有限。

这里的关键是把成本重新放回交互过程。

过去安全依赖攻击者侧的成本:攻击者要做高逼真欺骗很贵,所以不会无限规模化。Agentic AI 把这部分成本打掉了。

那系统就必须在交互侧重新设置成本,比如托管、延迟、限额、暴露上限、冷静期、分阶段释放权限。

论文认为,这些机制共同构成了一种新的安全逻辑:不管对方是真人还是合成身份,都必须接受同样的结构性约束。

放到具体场景里,这个逻辑会非常清楚。

在租房、二手交易、电商平台里,押金和款项不应该因为对方账号看起来可信就直接释放,而应该进入托管,等待线下交付、物流确认或多方验证后再释放。

在招聘场景里,身份证件、人脸视频、语音样本不应该因为对方看起来像正规 HR 就无限提交,而应该有最小披露、用途限制和平台侧隔离。

在企业财务系统里,修改供应商收款账户、发起大额付款、变更合同主体,不应该因为发起人账号通过 MFA 就直接执行,而应该有冷静期、带外确认和审批链。

在 Agent 工具调用里,Agent 不应该因为拿到 Token 就能一次性导出全量客户数据、群发邮件、创建管理员账号或者修改安全策略。高后果动作需要计划展示、单独授权、限额执行、延迟生效和审计追踪。

跨平台社工SOP与高后果控制点

这里很容易产生一个误解:既然论文讲的是 Agent 社工攻击,那攻击往往发生在跨平台、跨渠道、跨组织的 SOP 里;但有界损害架构听起来又像是某个平台内部的风控机制。这两者是不是割裂的?

其实不是。

社工攻击确实经常不是在某一个平台内完成的。

一次招聘诈骗可能从社交平台开始,进入邮件沟通,再跳到视频面试系统,最后诱导用户提交个人材料。

一次供应商欺诈可能从邮箱开始,进入 IM 确认,再进入 ERP 或财务系统释放款项。

一次租房诈骗可能发生在租房平台、短信、支付工具、电子合同之间。

但攻击链虽然跨平台,损害兑现一定会经过控制点。

这些控制点包括资金释放、敏感信息提交、权限变更、数据导出、合约签署、公开发布、工具调用、账户绑定。

攻击者真正想拿走的,不是对话本身,而是对话背后可以释放的资金、数据、权限和身份材料。

所以,有界损害架构不是要求所有社工攻击都在一个平台内被识别,而是要求每个高后果节点都不要再盲目信任前面 SOP 积累出来的“可信感”。

这就是这篇论文的核心落点。

它不是告诉我们“再做一个更强的 AI 诈骗检测器”,而是在说:当攻击可以跨平台制造可信上下文时,安全应该回到价值释放点,重新设计动作边界。

对 Agent 安全产品的启发

如果把这篇论文放到 Agent 安全产品里,它给出的启发非常直接。

过去很多大模型安全产品主要看输入输出。输入有没有风险,输出有没有违规,模型有没有被越狱,提示词有没有被注入。这些能力仍然重要,但对于 Agent 来说已经不够。

Agent 的风险不只在“说了什么”,更在“做了什么”。它可能调用工具、访问数据库、修改配置、发送邮件、创建工单、执行付款、提交表单、生成代码、调用 API。单次输入输出看起来都正常,但动作链路组合起来可能非常危险。

比如,一个 Agent 先读取客户列表,再筛选高价值客户,再生成个性化话术,再调用邮件工具群发。每一步单独看都可能合法,但组合起来就是一个高风险自动化触达流程。

再比如,一个 Agent 先读取内部文档,再摘要敏感信息,再调用外部协作工具发送给第三方。单次读取和单次发送都可能在权限范围内,但整条链路已经构成数据外泄。

所以,Agent 安全的关键模块不应该只有内容检测,还应该包括:

Tool Gateway 层面的工具调用风险控制,Agent Runtime 层面的计划审查和动作分级,数据访问网关层面的最小披露和查询限额,IAM 层面的动态授权和高风险动作二次确认,以及审计系统层面的跨会话行为链路分析。

更进一步说,Agent 安全产品应该从“检测模型是否输出风险内容”,走向“治理 Agent 是否执行高风险动作”。

这和论文提出的 suspect-by-default 是一致的:不要把 Agent 的身份、Token、上下文窗口、用户授权视为充分可信依据,而要持续评估动作本身。

局限性

这篇论文的价值在于提出了一个很强的安全范式判断,但它不是一篇工程系统论文。

它没有给出可复现实验,也没有提供具体算法,更没有实现一个完整平台。

它的说服力主要来自逻辑推演:如果高逼真欺骗可以规模化,那么建立在“低成本欺骗会留下破绽”上的安全机制就会被削弱。

这也意味着,论文里的判断需要适度理解。

第一,检测不会完全失效。内容检测、行为风控、身份认证、用户教育依然会在很多场景中发挥作用,尤其是对低质量、批量化、粗糙自动化攻击。但它们不能再被视为最终安全依据。

第二,有界损害架构会带来摩擦。托管会让交易变慢,限额会影响真实用户,冷静期会降低效率,新账号信任积累变慢也会影响正常增长。论文自己也承认,普遍怀疑会把摩擦施加到所有交互上,而不只是恶意交互上。

第三,平台权力会变大。一旦安全从用户判断转向平台架构,平台就不只是服务提供方,而变成数字交互规则的制定者。托管门槛、延迟时间、暴露上限、信任积累速度,这些看似产品参数,实际上会变成安全治理规则。论文也提出了一个关键问题:如果平台成为数字交互的监管性基础设施,那么谁来治理平台本身?

这些边界并不会削弱论文价值,反而让它更现实。

因为真正的安全范式转变,从来不是找到一个完美方案,而是重新分配风险、成本和责任。

写在最后

回到这篇论文的主线。

Agentic AI 让社工攻击变得更危险,并不是因为它简单提高了攻击话术质量,而是因为它改变了信任的成本结构。

过去高逼真欺骗很贵,所以数字系统可以依赖很多弱信任信号。

现在高逼真欺骗可能被 Agent 自动化生产,身份、声誉、关系、认证、语音、人脸、历史行为都不再足够可靠。

因此,安全不能继续把重点放在“我能不能判断谁是真的”上。

未来更重要的问题是:

一次交互最多能释放多少资金?

一次授权最多能开放多少权限?

一次会话最多能导出多少数据?

一个 Agent 最多能连续执行多少高风险动作?

一个平台是否能在无法确认身份真实性时,仍然限制损害边界?

论文结论说得很清楚,suspect-by-default 不是为了恢复真实与合成之间的可区分性,也不承诺阻止所有利用。

它提出的是另一种安全观:安全应该体现在系统允许什么动作、一次交互能提取什么价值、无论对方是谁都有哪些架构约束。

这可能也是 Agentic AI 时代最重要的一次安全转向。

过去我们相信身份,因为伪造身份有成本。

后来我们相信认证,因为绕过认证有成本。

未来我们可能不得不承认,身份和认证都只能作为参考。

真正可靠的安全,不再是相信对方没有问题,而是即使对方有问题,系统也不会轻易失控。

声明:本文来自模安局,稿件和图片版权均归原作者所有。所涉观点不代表东方安全立场,转载目的在于传递更多信息。如有侵权,请联系rhliu@skdlabs.com,我们将及时按原作者或权利人的意愿予以更正。

上一篇:知名AI公司Perplexity开源了一款供应链安全工具

下一篇:该文章已是最后的一篇