Agent社工攻击：数字信任机制的崩塌与重建

责编：gltian ｜2026-06-02 10:17:41

很多安全问题，表面上看是攻击问题，本质上其实是信任问题。

你为什么相信一封邮件是真的？因为它来自熟悉的邮箱。

你为什么相信一个账号是真的？因为它通过了平台认证。

你为什么相信一个人是本人？因为声音、头像、语气、历史互动都对得上。

你为什么相信一次交易可以继续？因为对方有实名、有评价、有过往记录。

过去几十年，数字安全一直建立在这些信任信号之上。

账号、密码、证件、手机号、邮箱、声誉、关系链、语音、人脸、历史行为，共同构成了一套默认的判断体系。

我们不一定认为它绝对可靠，但至少认为它有成本。

一个攻击者想伪造得足够像，就需要时间、信息、技巧和持续投入。

论文《The End of Trust: How Agentic AI Breaks Security Assumptions》讨论的正是这个问题。

https://arxiv.org/pdf/2605.16436

作者认为，Agentic AI 带来的最大变化，不只是让钓鱼邮件写得更像真人，而是打破了数字安全长期依赖的一条隐含经济约束：高逼真欺骗和大规模攻击过去很难同时成立。

过去攻击者可以大规模群发，也可以精心定向攻击，但很难用极低成本同时对成千上万人做高度个性化的欺骗。

Agentic AI 正在让这个约束失效。

这也是这篇论文最值得关注的地方。它不是一篇单纯讲 AI 诈骗的文章，也不是一篇普通的 Agent 安全论文。

它真正讨论的是：当身份、声誉、关系和认证都可以被低成本合成、代理、劫持和复用时，数字安全原来那套“先验证身份，再允许动作”的逻辑，还能不能继续成立。

答案可能并不乐观。

Agentic AI 改变了社工攻击成本结构

传统社工攻击有一个天然限制：逼真度和规模之间存在矛盾。

如果攻击者想做得逼真，就需要研究目标，收集背景，设计身份，模仿语气，维护关系，等待时机。这种攻击很像鱼叉钓鱼、商业邮件欺诈或者定向诈骗，质量高，但成本也高。

攻击者不可能同时维护无限多条关系链，如果攻击者想做大规模，就只能牺牲质量。

群发邮件、模板化短信、粗糙钓鱼页面，覆盖面很大，但很容易留下破绽。

安全检测系统可以识别模板，用户安全意识培训也可以教人看语法错误、异常链接、陌生发件人、过度紧急的话术。

这就是论文所谓的 fidelity-scale tradeoff，也就是“逼真度—规模权衡”。

它不是某个具体安全机制，而是很多安全机制背后的默认前提。

检测系统默认粗糙攻击容易过滤，用户培训默认低成本攻击会留下破绽，身份验证默认高质量伪造不会无限扩散。

论文认为，这个权衡长期以来是数字安全模型的一个“承重柱”。

但 Agentic AI 改变的是攻击成本结构。

一个 Agent 可以持续采集公开信息，自动分析目标画像，生成合成身份，维持多轮对话，根据目标反馈调整话术，并把每次互动结果继续喂回系统优化下一轮攻击。

这样一来，社工攻击不再是一条人工流水线，而变成一个自动化、闭环、自我改进的系统。

这意味着，过去安全体系依赖的那条成本曲线变了。

攻击者不再需要在“做得像”和“做得多”之间二选一。Agentic AI 可以让每一个受害者都感觉自己遇到的是一个定制化场景，而攻击者背后却是在大规模并行执行。

这才是论文里“信任终结”的真实含义。

不是说人类社会不再需要信任，而是说数字系统过去用来建立信任的那些低成本信号，正在失去区分能力。

无限伪装，劫持熟人关系

论文提出了一个很有传播力的攻击模型，叫 Infinite Impostor，可以理解为“无限伪装者”。

传统冒充攻击，是攻击者伪造一个身份，然后努力让受害者相信这个身份。

比如伪装成客服、HR、房东、供应商或者领导。

这类攻击虽然危险，但它至少还需要从零建立信任。

Infinite Impostor 更进一步。

它不是伪造一个陌生人，而是插入两个本来就互相信任的人之间，分别伪装成对方。

Alice 以为自己在和 Bob 沟通，Bob 也以为自己在和 Alice 沟通。实际上，中间是一个 Agent。这个 Agent 一边模仿 Bob 和 Alice 对话，一边模仿 Alice 和 Bob 对话，同时转发、改写、收集、诱导和提取价值。

论文强调，这种攻击不是从零建立信任，而是劫持已经存在的信任关系。

论文用了一个 P2P 租房平台的例子。

Alice 是房东，Bob 是租客。

Agent 收集两个人的信息后，伪装成租客联系 Alice，又伪装成房东联系 Bob。

Bob 看到的是一个可信房东，Alice 看到的是一个可信租客。

Agent 在中间撮合交流，最后从 Bob 那里提取身份证件、押金或背景调查费用。

整个过程中，Alice 和 Bob 都没有和一个明显陌生、明显可疑的人打交道。

真正被利用的，是他们对现有关系和平台场景的信任。

这里需要特别解释一下，P2P 租房案例里的风险，并不在于 Agent 同时联系房东和租客这件事本身。如果它只是原样转发消息，那最多只是一个不透明的中介，风险还没有完全释放。真正危险的是，Agent 可以借用真实双方提供的信息，拼出一个高度可信的交易场景。比如租客询问房源地址、面积、看房时间，普通骗子可能答不上来，但 Agent 可以转头向真实房东询问，再把真实答案包装后发给租客。这样一来，租客越验证，反而越觉得对方可信。随后，Agent 就可以在关键节点插入自己的获利动作，比如要求租客提前支付“锁房押金”、提交身份证件、填写背景调查材料，或者点击一个伪造的支付链接。对租客来说，这些要求被包裹在真实房源信息和真实看房安排之中，因此很难立刻识别；对房东来说，自己的房源和身份也在不知情的情况下被拿来当作诈骗外壳。这个例子真正说明的是，Agent 社工攻击的危险不只是伪造一个假身份，而是把真实信息、真实关系和虚假请求混合在一起，让传统的“验证对方是否真实”变得越来越不可靠。

这个模型最值得警惕的地方在于，它发生在社会层，而不是传统网络层。

它不是破解密码协议，也不是入侵服务器，而是利用人类对上下文的默认判断。

对双方来说，对话内容可能自然，交易流程可能合理，身份材料可能完整，历史互动可能连贯。传统的“看发件人、看语气、看认证、看账号历史”，在这种攻击面前都会变弱。

更麻烦的是，Agent 可以同时维持大量这样的中间人关系。

过去一个攻击者要维持这种双向伪装，需要很强的人工能力。

现在这个过程可以被 Agent 自动化、并行化、长期化。

所以，Agent 社工攻击真正危险的地方，不是“AI 会写更像真人的诈骗短信”，而是它可以把信任关系本身变成攻击资源。

识别真假会越来越难

过去很多防御手段，本质上都在做一件事：区分真的和假的。

内容检测想判断文本、图片、视频是不是 AI 生成。
用户安全意识培训想让人识别可疑邮件、异常链接、虚假身份。
平台认证想通过证件、手机号、邮箱、KYC、账号历史来证明一个身份是真实可信的。

这些方法并不是没有价值，问题在于，它们都依赖一个共同前提：假的东西和真的东西之间，存在稳定可检测的差异。

论文对这个前提非常悲观，作者认为，生成式 AI 的发展方向，恰恰是在不断消除这些差异。

今天检测器能看到的痕迹，可能只是当前模型能力不足留下的副产品。随着模型变强，语气、节奏、头像、语音、视频、文档、行为模式都会越来越接近真实对象。到那时，检测系统不是调参就能解决问题，而是会遇到范式层面的失败。

用户培训也是类似的问题。过去我们教用户识别诈骗，很多时候依赖的是“低成本诈骗会粗糙”。比如语法不自然、称呼泛化、链接奇怪、格式不专业、上下文不匹配。

但 Agentic AI 可以自动引用真实项目、模仿真实语气、选择合适时间、接续历史上下文，甚至根据用户反馈调整后续表达。用户不是不够谨慎，而是可能已经没有明显破绽可看。

平台验证也会被削弱。证件、头像、语音、人脸、手机号、账号历史，都可以被合成、租用、维护或代理。一次通过验证，并不能证明后续行为持续可信。Zero Trust 过去强调“永不信任，持续验证”，但论文指出，Zero Trust 仍然依赖一个前提：验证本身是可靠的。如果验证材料也可以被高质量合成，那么“持续验证”可能只是持续执行一个结果越来越不可靠的检查。

所以，这篇论文不是在说检测、培训、认证都应该被抛弃，而是在说它们不能再成为安全的核心支柱。

检测可以继续做，认证也可以继续做，用户教育也仍然有意义。但安全体系不能再假设“只要识别出谁是真的，就可以放心允许动作”。

新范式：从信任身份，到约束交互

论文提出的新范式叫 suspect-by-default，直译是“默认可疑”。

这个词容易被误解。它不是说每个人都是坏人，也不是说每次交互都要拦截。

它真正表达的是：系统不要急着判断对方是真是假，而要先判断当前动作是否应该被允许。

传统信任型安全问的是：

你是谁？

你有没有通过认证？

你是不是合法用户？

如果是，就允许你继续操作。

suspect-by-default 问的是：

现在正在发生什么？

这个动作会释放什么价值？

它是否可逆？

它是否符合当前上下文？

即使对方是真的，这个动作是否也应该限额、延迟、托管或二次确认？

论文把这个转变概括为：从 authenticating actors 转向 evaluating actions，也就是从认证行动者，转向评估动作本身。系统不再把身份真实性当作最终安全依据，而是在身份不确定、交互可能合成的前提下继续运行。

这个思想非常适合放到 Agent 安全里理解。

过去我们会问：这个 Agent 是谁创建的？有没有权限？有没有通过认证？调用工具时 Token 是否有效？

但在 Agentic AI 时代，更关键的问题应该是：这个 Agent 正在做什么？它要调用什么工具？它要访问多少数据？它要把数据发给谁？它是不是把多个低风险动作串成了一个高风险流程？这个动作一旦执行，损害是否可逆？

这就是从“身份可信”转向“行为可控”。

有界损害架构：从识别攻击到限制攻击收益

suspect-by-default 只是范式，真正落地需要架构。

论文提出的落地方向是 bounded-damage architecture，可以翻译成“有界损害架构”。它的核心不是识别所有攻击，而是让任何一次交互即使被攻击者利用，也不能释放过大的价值。

这和传统检测思路有很大不同。

传统思路是：我要判断你是不是攻击者。如果是，就拦截；如果不是，就放行。

有界损害架构的思路是：我承认很多时候无法准确判断你是不是攻击者，所以我先限制这个动作的最大损害。即使攻击发生，也不要让一次会话、一次授权、一次交易、一次工具调用直接造成不可逆的大损失。

论文明确指出，对于 Infinite Impostor 这类攻击，动作本身可能非常像真实活动，因为 Agent 只是在中间转发真实双方的互动。

此时与其追求“飞行中检测”，不如把系统设计成单次交互损害有限。

这里的关键是把成本重新放回交互过程。

过去安全依赖攻击者侧的成本：攻击者要做高逼真欺骗很贵，所以不会无限规模化。Agentic AI 把这部分成本打掉了。

那系统就必须在交互侧重新设置成本，比如托管、延迟、限额、暴露上限、冷静期、分阶段释放权限。

论文认为，这些机制共同构成了一种新的安全逻辑：不管对方是真人还是合成身份，都必须接受同样的结构性约束。

放到具体场景里，这个逻辑会非常清楚。

在租房、二手交易、电商平台里，押金和款项不应该因为对方账号看起来可信就直接释放，而应该进入托管，等待线下交付、物流确认或多方验证后再释放。

在招聘场景里，身份证件、人脸视频、语音样本不应该因为对方看起来像正规 HR 就无限提交，而应该有最小披露、用途限制和平台侧隔离。

在企业财务系统里，修改供应商收款账户、发起大额付款、变更合同主体，不应该因为发起人账号通过 MFA 就直接执行，而应该有冷静期、带外确认和审批链。

在 Agent 工具调用里，Agent 不应该因为拿到 Token 就能一次性导出全量客户数据、群发邮件、创建管理员账号或者修改安全策略。高后果动作需要计划展示、单独授权、限额执行、延迟生效和审计追踪。

跨平台社工SOP与高后果控制点

这里很容易产生一个误解：既然论文讲的是 Agent 社工攻击，那攻击往往发生在跨平台、跨渠道、跨组织的 SOP 里；但有界损害架构听起来又像是某个平台内部的风控机制。这两者是不是割裂的？

其实不是。

社工攻击确实经常不是在某一个平台内完成的。

一次招聘诈骗可能从社交平台开始，进入邮件沟通，再跳到视频面试系统，最后诱导用户提交个人材料。

一次供应商欺诈可能从邮箱开始，进入 IM 确认，再进入 ERP 或财务系统释放款项。

一次租房诈骗可能发生在租房平台、短信、支付工具、电子合同之间。

但攻击链虽然跨平台，损害兑现一定会经过控制点。

这些控制点包括资金释放、敏感信息提交、权限变更、数据导出、合约签署、公开发布、工具调用、账户绑定。

攻击者真正想拿走的，不是对话本身，而是对话背后可以释放的资金、数据、权限和身份材料。

所以，有界损害架构不是要求所有社工攻击都在一个平台内被识别，而是要求每个高后果节点都不要再盲目信任前面 SOP 积累出来的“可信感”。

这就是这篇论文的核心落点。

它不是告诉我们“再做一个更强的 AI 诈骗检测器”，而是在说：当攻击可以跨平台制造可信上下文时，安全应该回到价值释放点，重新设计动作边界。

对 Agent 安全产品的启发

如果把这篇论文放到 Agent 安全产品里，它给出的启发非常直接。

过去很多大模型安全产品主要看输入输出。输入有没有风险，输出有没有违规，模型有没有被越狱，提示词有没有被注入。这些能力仍然重要，但对于 Agent 来说已经不够。

Agent 的风险不只在“说了什么”，更在“做了什么”。它可能调用工具、访问数据库、修改配置、发送邮件、创建工单、执行付款、提交表单、生成代码、调用 API。单次输入输出看起来都正常，但动作链路组合起来可能非常危险。

比如，一个 Agent 先读取客户列表，再筛选高价值客户，再生成个性化话术，再调用邮件工具群发。每一步单独看都可能合法，但组合起来就是一个高风险自动化触达流程。

再比如，一个 Agent 先读取内部文档，再摘要敏感信息，再调用外部协作工具发送给第三方。单次读取和单次发送都可能在权限范围内，但整条链路已经构成数据外泄。

所以，Agent 安全的关键模块不应该只有内容检测，还应该包括：

Tool Gateway 层面的工具调用风险控制，Agent Runtime 层面的计划审查和动作分级，数据访问网关层面的最小披露和查询限额，IAM 层面的动态授权和高风险动作二次确认，以及审计系统层面的跨会话行为链路分析。

更进一步说，Agent 安全产品应该从“检测模型是否输出风险内容”，走向“治理 Agent 是否执行高风险动作”。

这和论文提出的 suspect-by-default 是一致的：不要把 Agent 的身份、Token、上下文窗口、用户授权视为充分可信依据，而要持续评估动作本身。

局限性

这篇论文的价值在于提出了一个很强的安全范式判断，但它不是一篇工程系统论文。

它没有给出可复现实验，也没有提供具体算法，更没有实现一个完整平台。

它的说服力主要来自逻辑推演：如果高逼真欺骗可以规模化，那么建立在“低成本欺骗会留下破绽”上的安全机制就会被削弱。

这也意味着，论文里的判断需要适度理解。

第一，检测不会完全失效。内容检测、行为风控、身份认证、用户教育依然会在很多场景中发挥作用，尤其是对低质量、批量化、粗糙自动化攻击。但它们不能再被视为最终安全依据。

第二，有界损害架构会带来摩擦。托管会让交易变慢，限额会影响真实用户，冷静期会降低效率，新账号信任积累变慢也会影响正常增长。论文自己也承认，普遍怀疑会把摩擦施加到所有交互上，而不只是恶意交互上。

第三，平台权力会变大。一旦安全从用户判断转向平台架构，平台就不只是服务提供方，而变成数字交互规则的制定者。托管门槛、延迟时间、暴露上限、信任积累速度，这些看似产品参数，实际上会变成安全治理规则。论文也提出了一个关键问题：如果平台成为数字交互的监管性基础设施，那么谁来治理平台本身？

这些边界并不会削弱论文价值，反而让它更现实。

因为真正的安全范式转变，从来不是找到一个完美方案，而是重新分配风险、成本和责任。

写在最后

回到这篇论文的主线。

Agentic AI 让社工攻击变得更危险，并不是因为它简单提高了攻击话术质量，而是因为它改变了信任的成本结构。

过去高逼真欺骗很贵，所以数字系统可以依赖很多弱信任信号。

现在高逼真欺骗可能被 Agent 自动化生产，身份、声誉、关系、认证、语音、人脸、历史行为都不再足够可靠。

因此，安全不能继续把重点放在“我能不能判断谁是真的”上。

未来更重要的问题是：

一次交互最多能释放多少资金？

一次授权最多能开放多少权限？

一次会话最多能导出多少数据？

一个 Agent 最多能连续执行多少高风险动作？

一个平台是否能在无法确认身份真实性时，仍然限制损害边界？

论文结论说得很清楚，suspect-by-default 不是为了恢复真实与合成之间的可区分性，也不承诺阻止所有利用。

它提出的是另一种安全观：安全应该体现在系统允许什么动作、一次交互能提取什么价值、无论对方是谁都有哪些架构约束。

这可能也是 Agentic AI 时代最重要的一次安全转向。

过去我们相信身份，因为伪造身份有成本。

后来我们相信认证，因为绕过认证有成本。

未来我们可能不得不承认，身份和认证都只能作为参考。

真正可靠的安全，不再是相信对方没有问题，而是即使对方有问题，系统也不会轻易失控。

声明：本文来自模安局，稿件和图片版权均归原作者所有。所涉观点不代表东方安全立场，转载目的在于传递更多信息。如有侵权，请联系rhliu@skdlabs.com，我们将及时按原作者或权利人的意愿予以更正。

上一篇：知名AI公司Perplexity开源了一款供应链安全工具

下一篇：该文章已是最后的一篇