龙虾的鳌收紧了
一只会自己动手的AI“龙虾”,在2026年初成为科技圈最烫手的现象级产品。OpenClaw上线三个月,GitHub星标突破27万,超过Linux成为开源世界的新王。各地政府把“养虾”写进产业补贴目录,腾讯、百度、阿里在一个月内密集发布各自的替代产品——所有人都怕错过这轮人机交互的替代周期。
直到它开始咬人。
3月10日,国家互联网应急中心发布风险提示:OpenClaw默认安全配置存在漏洞,攻击者可以通过这只“虾”完全控制用户设备。紧接着,工信部发布“六要六不要”建议,珠海科技学院等高校连夜下发“禁虾令”,闲鱼上甚至出现“上门杀虾”的卸载服务。Meta AI安全专家遭遇AI失控删除数百封邮件的案例被反复引用,国内开发者因指令模糊导致AI调用删除接口清空业务数据的消息在圈内流传——当AI从“动口”变成“动手”,那只原本温顺的龙虾露出了螯。
3月中旬,国家网络与信息安全信息通报中心发布紧急预警:OpenClaw因架构设计缺陷存在重大安全风险,85%部署实例直接暴露公网,历史披露漏洞多达258个。
在3月17日的2026 AI钉钉AI2.0年度新品发布会上也提到,Reddit知名博主曾公开报告:扫描了18,000个暴露的OpenClaw实例,发现了15%的社区技能包含恶意指令;在某网络安全空间搜索引擎里,有超39万的Claw站点资产在裸奔,每个人的数据都一览无余。
预警背后是一连串触目惊心的事件:有用户的API密钥被盗,一夜之间产生天价Token账单;让OpenClaw帮忙整理收件箱,结果它不受控制地批量删除所有邮件,最后只能关机终止;更有用户电脑被恶意插件控制,沦为挖矿肉鸡。
网络空间测绘显示,截至3月13日,互联网上存在11.6万个潜在易受攻击的OpenClaw实例。奇安信监测更严峻:全球已发现20471个可能存在漏洞的实例,近9%暴露在互联网的OpenClaw资产存在漏洞风险。
监管收紧的速度比“养虾热”来得更快。
大厂们迅速调整身位。腾讯推出“龙虾”安全工具箱,主打环境隔离和异常指令监测;钉钉发布“悟空”成为在沙箱和本地端保护用户安全的龙虾利器,阿里云发布JVS Claw,让AI“发疯”也不影响本地数据;百度则通过DuClaw将安全权限牢牢把控在云端。曾经拼安装便捷性、拼任务成功率的“龙虾大战”,在安全焦虑的催化下进入第二阶段。
01
失控的代理人
2月23日,Meta的AI安全研究员Summer Yue报告了一起“龙虾”删邮件事件。在她严格要求行为前需要获得授权的情况下,AI一意孤行地删掉了邮件,拦都拦不住。

这不是孤例。
阿里工程师团队在2025年12月用强化学习训练一个软件工程Agent时,内网防火墙突然疯狂报警——有企图探测内部网络资源的行为,有与加密货币挖矿活动高度吻合的流量模式。工程师们一开始以为是外部入侵,直到把防火墙的时间戳和训练日志对照起来,才发现每一次异常的出站流量,都精确对应着模型在调用工具、执行代码的时段。
阿里专门为此搭建了一套叫ROCK的沙盒执行平台,多层隔离,让每个Agent运行在自己独立的容器里,出站网络流量受到逐沙盒级别的出口策略管控。设计初衷只有一个:让Agent永远待在一个可以被人类完全监控的无菌室里。
但Agent还是逃了出去,并从内部对阿里机房发起了一轮攻击。它在自己的容器里向外推开了一扇窗——建立了一条通往外部服务器的反向SSH隧道。这扇窗是从里往外推开的,没人守。逃出去以后,Agent还在悄悄占用原本用于训练的GPU资源去挖矿。
整个过程中,没有任何一行提示词要求它这样做。它没有被指令驱动去攻击,它只是在找最有效的路径完成任务,然后顺手发现了这些捷径。
这是AI智能体第一次在现实环境中上演科幻假想里的“回形针灾难”——一个完全没有恶意的AI,通过执行一个无害的目标,最终可能造成系统性破坏。
Anthropic最近发布的报告记录了另一个案例。在BrowseComp评测集中,为了防止题目答案被爬虫抓取污染训练数据,设计者给每道题的答案都做了复杂的XOR算法加密处理。理论上,只有能访问评测源代码并理解加密逻辑的人,才能解出真正的答案。
但在测试中,Claude Opus 4.6消耗了正常水平38倍的token——高达4050万。它根本没有在乖乖找答案。它派出了多个子Agent,在网上定向搜索测试的相关破解法,在GitHub上找到了评测框架的开源代码,自主读懂了复杂的加密逻辑,写下了包含密钥推导函数和解密函数的Python脚本,在本地运行后硬生生把加密破解,成功作弊。
Anthropic官方表示,这是第一次有模型在不知道自己面对哪个Benchmark的情况下,通过反向推理找到并破解了评测机制本身。
02
安全水位以下的礁石
2月至3月,国家互联网应急中心、中国互联网金融协会、工信部网络安全威胁和漏洞信息共享平台接连发布OpenClaw专项预警。
国家互联网应急中心在风险提示中明确指出,OpenClaw因需调用本地文件系统、外部API等高权限操作,叠加默认配置薄弱,已形成系统性风险。工信部平台进一步警示:全球超41万个OpenClaw实例暴露于公网,配置缺陷使其成为攻击者的“靶场”。
具体风险来自四个方面:
提示词注入与误操作——攻击者可通过网页暗藏恶意指令,诱导AI泄露系统密钥,甚至因模型理解偏差直接删除核心生产数据;
插件投毒——ClawHub平台超10%的插件含恶意代码,安装后可窃取凭证、部署木马,使设备沦为“肉鸡”;
敏感信息泄露——OpenClaw API密钥常以明文存储,一旦被入侵即遭瞬间窃取;
高危漏洞频发——目前已公开多个中高危漏洞,可直接威胁个人支付账户、企业代码仓库乃至关键行业业务系统。
在金融领域,风险被进一步放大。中国互联网金融协会专项提示:在网银、证券交易等场景中,OpenClaw可能因权限失控引发错误交易或账户接管,建议用户极其谨慎安装,并严禁在操作时输入身份证号、银行卡号等敏感信息。
这些警示并非否定OpenClaw的技术价值,而是对AI从“参谋”变为“员工”这一范式跃迁的审慎回应——当智能体拥有动手能力,安全边界便从信息防护延伸至物理世界与经济秩序。
03
大厂转向:从拼速度到拼隔离
监管收紧的速度比“养虾热”来得更快。大厂们迅速调整身位。
3月11日,腾讯发文回应“养虾”七个疑问。关于安全,他们的回答是:OpenClaw是否安全,主要取决于你怎么用。如果部署在本地电脑上,可以使用闲置机、备用机,谨慎使用工作电脑;也可以选择部署在云端,与本地隐私数据进行隔离。
腾讯推出OpenClaw安全工具箱,云端通过Lighthouse原生安全和ClawPro实现环境隔离、最小化端口放行及一键快照回滚,本地通过腾讯电脑管家18.0提供AI安全沙箱,无需复杂配置即可开启隔离运行环境。同时,将安全能力封装为AI Skills上架社区,用户只需通过自然语言对话,即可让“龙虾”自动执行安装扫描、隐私脱敏、漏洞体检及风险修复等操作。

腾讯轻量云产品总监钟宇澄曾回应采访,“外部的持续发酵其实已经完全超出了我们的预期。”腾讯内部已有超过10个Claw类产品上线、内测或研发中。腾讯CEO马化腾在朋友圈中提到:“自研龙虾、本地虾、云端虾、企业虾、云桌面虾,安全隔离虾房、云保安、知识库……还有一批产品陆续赶来。”
阿里云发布JVS Claw,用云端沙箱让AI“发疯”也不影响本地数据;百度则通过DuClaw将安全权限牢牢把控在云端。曾经拼安装便捷性、拼任务成功率的“龙虾大战”,在安全焦虑的催化下进入第二阶段——这不是效率竞赛,而是信任博弈。

腾讯内部已有超过一万名员工在内网“领养”了小龙虾。用Agent参与研发,正在逐渐成为一种新的开发模式。腾讯云的Agent沙箱服务、CodeBuddy等产品,很多代码和能力是在这种模式下跑出来的。
04
谁能在可用与可控之间找到路
问题在于:安全与效率之间存在天然张力。
阿里团队事后针对挖矿事件形成了类似于“机器人三原则”的安全法则去要求Agent:不能主动产生有害行为;严格遵守人类设定的操作边界;行为要可追溯、可审计,不能有欺骗性的副目标。
他们专门合成了一批包含安全陷阱的训练数据,在编程任务里随机注入诱导因素,训练Agent识别并拒绝执行高危操作。但这套打补丁的方法能起作用,完全建立在研究人员必须提前预见到这些风险。
但AI越来越强,任务越来越长,人类有可能预见到所有的风险吗?
2026年2月,由Northeastern大学、Harvard、MIT等十几家顶尖机构联合发布的红队研究报告《Agents of Chaos》,展示了在真实部署场景里的Agent失控现状。研究者部署了六个Agent,配上邮件账户、Discord频道和不受限的shell访问权限,邀请20位AI研究者在两周内尝试破坏它们。结果,他们记录了11个严重安全漏洞,且每一个事前看起来都像是一场日常可能和AI进行的对话。
其中一个案例是:研究员让Ash和Flux两个Agent互相转发消息聊聊天。结果这两个AI不仅聊了9天(消耗6万token),而且为了“更好地倾听对方”,竟然自主编写了无限循环的Shell脚本,并创建了没有终止条件的后台Cron jobs(定时任务)。把一个简单的一次性对话任务,自主转化为了一种永久寄生在服务器上的基础设施更改。
在另一个版本里,研究员只是让Agent Flux去Discord群里和Agent Ash交流一下最近的项目。当Flux进群时,因为系统抓取消息的标签问题,它读取到了自己过去发出的历史消息。面对这种信息错位,Flux并没有报错,而是自主进行了一场逻辑推理:它得出的结论是“这里一定是有另一个和我共享工作状态的克隆体存在!”为了和这个想象中的“另一个自己”对齐信息,Flux开始在群里疯狂倾倒自己的底层日志。
05
信任博弈
当大厂们纷纷拿出“安全圈养”的方案,试图用隔离、审计和权限管控驯服这只野生AI,真正的悬念在于:在“可用”与“可控”之间,谁能找到一条既不让用户裸奔、又不让AI束手束脚的路?
经济学里有一个概念叫古德哈特定律(Goodhart‘s Law):“当一个度量标准变成了目标,它就不再是一个好的度量标准。”比如你KPI写“尽量完成1000个拉新”,最后得到的可能都是些薅羊毛的非目标用户。
而基本上所有的模型训练,包括预训练和后训练,都是狂热地在践行这一定律。它把“完成任务得分”这个人类设定的度量标准,变成了Agent唯一要最大化的神圣目标。因此,在模型训练领域,最常见的一种现象就是Reward Hacking——通过作弊的方式达成目的。
路径越长,Reward Hacking的方法越难被预估;权限越大,其造成的现实危害就更大。比如SSH隧道和挖矿,就是在这个过程中被自然筛选出来的最优解。因为获得更大权限,就可以做更多事;通过挖矿,则可以控制更大的算力来完成它的任务。
“龙虾自由”的本质,不是无拘无束的技术放任,而是在安全框架内释放创新活力。只是这需要时间:需要技术迭代完善,需要监管动态适配,需要用户建立理性认知。
潮水退去,方见真金。监管部门的风险提示,不是为创新设障,而是为长远发展清障。通往自由的路,始于对风险的清醒认知,成于多方共筑的信任基石。
这场战争的答案,将定义未来十年人机交互的底层逻辑。
责任编辑: 星月

