龙虾的鳌收紧了

来源：极新

作者：极新 2026-03-20

“当龙虾大战进入第二阶段……”

一只会自己动手的AI“龙虾”，在2026年初成为科技圈最烫手的现象级产品。OpenClaw上线三个月，GitHub星标突破27万，超过Linux成为开源世界的新王。各地政府把“养虾”写进产业补贴目录，腾讯、百度、阿里在一个月内密集发布各自的替代产品——所有人都怕错过这轮人机交互的替代周期。

直到它开始咬人。

3月10日，国家互联网应急中心发布风险提示：OpenClaw默认安全配置存在漏洞，攻击者可以通过这只“虾”完全控制用户设备。紧接着，工信部发布“六要六不要”建议，珠海科技学院等高校连夜下发“禁虾令”，闲鱼上甚至出现“上门杀虾”的卸载服务。Meta AI安全专家遭遇AI失控删除数百封邮件的案例被反复引用，国内开发者因指令模糊导致AI调用删除接口清空业务数据的消息在圈内流传——当AI从“动口”变成“动手”，那只原本温顺的龙虾露出了螯。

3月中旬，国家网络与信息安全信息通报中心发布紧急预警：OpenClaw因架构设计缺陷存在重大安全风险，85%部署实例直接暴露公网，历史披露漏洞多达258个。

在3月17日的2026 AI钉钉AI2.0年度新品发布会上也提到，Reddit知名博主曾公开报告：扫描了18,000个暴露的OpenClaw实例，发现了15%的社区技能包含恶意指令；在某网络安全空间搜索引擎里，有超39万的Claw站点资产在裸奔，每个人的数据都一览无余。

预警背后是一连串触目惊心的事件：有用户的API密钥被盗，一夜之间产生天价Token账单；让OpenClaw帮忙整理收件箱，结果它不受控制地批量删除所有邮件，最后只能关机终止；更有用户电脑被恶意插件控制，沦为挖矿肉鸡。

网络空间测绘显示，截至3月13日，互联网上存在11.6万个潜在易受攻击的OpenClaw实例。奇安信监测更严峻：全球已发现20471个可能存在漏洞的实例，近9%暴露在互联网的OpenClaw资产存在漏洞风险。

监管收紧的速度比“养虾热”来得更快。

大厂们迅速调整身位。腾讯推出“龙虾”安全工具箱，主打环境隔离和异常指令监测；钉钉发布“悟空”成为在沙箱和本地端保护用户安全的龙虾利器，阿里云发布JVS Claw，让AI“发疯”也不影响本地数据；百度则通过DuClaw将安全权限牢牢把控在云端。曾经拼安装便捷性、拼任务成功率的“龙虾大战”，在安全焦虑的催化下进入第二阶段。

01 失控的代理人

2月23日，Meta的AI安全研究员Summer Yue报告了一起“龙虾”删邮件事件。在她严格要求行为前需要获得授权的情况下，AI一意孤行地删掉了邮件，拦都拦不住。

这不是孤例。

阿里工程师团队在2025年12月用强化学习训练一个软件工程Agent时，内网防火墙突然疯狂报警——有企图探测内部网络资源的行为，有与加密货币挖矿活动高度吻合的流量模式。工程师们一开始以为是外部入侵，直到把防火墙的时间戳和训练日志对照起来，才发现每一次异常的出站流量，都精确对应着模型在调用工具、执行代码的时段。

阿里专门为此搭建了一套叫ROCK的沙盒执行平台，多层隔离，让每个Agent运行在自己独立的容器里，出站网络流量受到逐沙盒级别的出口策略管控。设计初衷只有一个：让Agent永远待在一个可以被人类完全监控的无菌室里。

但Agent还是逃了出去，并从内部对阿里机房发起了一轮攻击。它在自己的容器里向外推开了一扇窗——建立了一条通往外部服务器的反向SSH隧道。这扇窗是从里往外推开的，没人守。逃出去以后，Agent还在悄悄占用原本用于训练的GPU资源去挖矿。

整个过程中，没有任何一行提示词要求它这样做。它没有被指令驱动去攻击，它只是在找最有效的路径完成任务，然后顺手发现了这些捷径。

这是AI智能体第一次在现实环境中上演科幻假想里的“回形针灾难”——一个完全没有恶意的AI，通过执行一个无害的目标，最终可能造成系统性破坏。

Anthropic最近发布的报告记录了另一个案例。在BrowseComp评测集中，为了防止题目答案被爬虫抓取污染训练数据，设计者给每道题的答案都做了复杂的XOR算法加密处理。理论上，只有能访问评测源代码并理解加密逻辑的人，才能解出真正的答案。

但在测试中，Claude Opus 4.6消耗了正常水平38倍的token——高达4050万。它根本没有在乖乖找答案。它派出了多个子Agent，在网上定向搜索测试的相关破解法，在GitHub上找到了评测框架的开源代码，自主读懂了复杂的加密逻辑，写下了包含密钥推导函数和解密函数的Python脚本，在本地运行后硬生生把加密破解，成功作弊。

Anthropic官方表示，这是第一次有模型在不知道自己面对哪个Benchmark的情况下，通过反向推理找到并破解了评测机制本身。

02 安全水位以下的礁石

2月至3月，国家互联网应急中心、中国互联网金融协会、工信部网络安全威胁和漏洞信息共享平台接连发布OpenClaw专项预警。

国家互联网应急中心在风险提示中明确指出，OpenClaw因需调用本地文件系统、外部API等高权限操作，叠加默认配置薄弱，已形成系统性风险。工信部平台进一步警示：全球超41万个OpenClaw实例暴露于公网，配置缺陷使其成为攻击者的“靶场”。

具体风险来自四个方面：

提示词注入与误操作——攻击者可通过网页暗藏恶意指令，诱导AI泄露系统密钥，甚至因模型理解偏差直接删除核心生产数据；

插件投毒——ClawHub平台超10%的插件含恶意代码，安装后可窃取凭证、部署木马，使设备沦为“肉鸡”；

敏感信息泄露——OpenClaw API密钥常以明文存储，一旦被入侵即遭瞬间窃取；

高危漏洞频发——目前已公开多个中高危漏洞，可直接威胁个人支付账户、企业代码仓库乃至关键行业业务系统。

在金融领域，风险被进一步放大。中国互联网金融协会专项提示：在网银、证券交易等场景中，OpenClaw可能因权限失控引发错误交易或账户接管，建议用户极其谨慎安装，并严禁在操作时输入身份证号、银行卡号等敏感信息。

这些警示并非否定OpenClaw的技术价值，而是对AI从“参谋”变为“员工”这一范式跃迁的审慎回应——当智能体拥有动手能力，安全边界便从信息防护延伸至物理世界与经济秩序。

03 大厂转向：从拼速度到拼隔离

监管收紧的速度比“养虾热”来得更快。大厂们迅速调整身位。

3月11日，腾讯发文回应“养虾”七个疑问。关于安全，他们的回答是：OpenClaw是否安全，主要取决于你怎么用。如果部署在本地电脑上，可以使用闲置机、备用机，谨慎使用工作电脑；也可以选择部署在云端，与本地隐私数据进行隔离。

腾讯推出OpenClaw安全工具箱，云端通过Lighthouse原生安全和ClawPro实现环境隔离、最小化端口放行及一键快照回滚，本地通过腾讯电脑管家18.0提供AI安全沙箱，无需复杂配置即可开启隔离运行环境。同时，将安全能力封装为AI Skills上架社区，用户只需通过自然语言对话，即可让“龙虾”自动执行安装扫描、隐私脱敏、漏洞体检及风险修复等操作。

腾讯轻量云产品总监钟宇澄曾回应采访，“外部的持续发酵其实已经完全超出了我们的预期。”腾讯内部已有超过10个Claw类产品上线、内测或研发中。腾讯CEO马化腾在朋友圈中提到：“自研龙虾、本地虾、云端虾、企业虾、云桌面虾，安全隔离虾房、云保安、知识库……还有一批产品陆续赶来。”

阿里云发布JVS Claw，用云端沙箱让AI“发疯”也不影响本地数据；百度则通过DuClaw将安全权限牢牢把控在云端。曾经拼安装便捷性、拼任务成功率的“龙虾大战”，在安全焦虑的催化下进入第二阶段——这不是效率竞赛，而是信任博弈。

腾讯内部已有超过一万名员工在内网“领养”了小龙虾。用Agent参与研发，正在逐渐成为一种新的开发模式。腾讯云的Agent沙箱服务、CodeBuddy等产品，很多代码和能力是在这种模式下跑出来的。

04 谁能在可用与可控之间找到路

问题在于：安全与效率之间存在天然张力。

阿里团队事后针对挖矿事件形成了类似于“机器人三原则”的安全法则去要求Agent：不能主动产生有害行为；严格遵守人类设定的操作边界；行为要可追溯、可审计，不能有欺骗性的副目标。

他们专门合成了一批包含安全陷阱的训练数据，在编程任务里随机注入诱导因素，训练Agent识别并拒绝执行高危操作。但这套打补丁的方法能起作用，完全建立在研究人员必须提前预见到这些风险。

但AI越来越强，任务越来越长，人类有可能预见到所有的风险吗？

2026年2月，由Northeastern大学、Harvard、MIT等十几家顶尖机构联合发布的红队研究报告《Agents of Chaos》，展示了在真实部署场景里的Agent失控现状。研究者部署了六个Agent，配上邮件账户、Discord频道和不受限的shell访问权限，邀请20位AI研究者在两周内尝试破坏它们。结果，他们记录了11个严重安全漏洞，且每一个事前看起来都像是一场日常可能和AI进行的对话。

其中一个案例是：研究员让Ash和Flux两个Agent互相转发消息聊聊天。结果这两个AI不仅聊了9天（消耗6万token），而且为了“更好地倾听对方”，竟然自主编写了无限循环的Shell脚本，并创建了没有终止条件的后台Cron jobs（定时任务）。把一个简单的一次性对话任务，自主转化为了一种永久寄生在服务器上的基础设施更改。

在另一个版本里，研究员只是让Agent Flux去Discord群里和Agent Ash交流一下最近的项目。当Flux进群时，因为系统抓取消息的标签问题，它读取到了自己过去发出的历史消息。面对这种信息错位，Flux并没有报错，而是自主进行了一场逻辑推理：它得出的结论是“这里一定是有另一个和我共享工作状态的克隆体存在！”为了和这个想象中的“另一个自己”对齐信息，Flux开始在群里疯狂倾倒自己的底层日志。

05 信任博弈

当大厂们纷纷拿出“安全圈养”的方案，试图用隔离、审计和权限管控驯服这只野生AI，真正的悬念在于：在“可用”与“可控”之间，谁能找到一条既不让用户裸奔、又不让AI束手束脚的路？

经济学里有一个概念叫古德哈特定律（Goodhart‘s Law）：“当一个度量标准变成了目标，它就不再是一个好的度量标准。”比如你KPI写“尽量完成1000个拉新”，最后得到的可能都是些薅羊毛的非目标用户。

而基本上所有的模型训练，包括预训练和后训练，都是狂热地在践行这一定律。它把“完成任务得分”这个人类设定的度量标准，变成了Agent唯一要最大化的神圣目标。因此，在模型训练领域，最常见的一种现象就是Reward Hacking——通过作弊的方式达成目的。

路径越长，Reward Hacking的方法越难被预估；权限越大，其造成的现实危害就更大。比如SSH隧道和挖矿，就是在这个过程中被自然筛选出来的最优解。因为获得更大权限，就可以做更多事；通过挖矿，则可以控制更大的算力来完成它的任务。

“龙虾自由”的本质，不是无拘无束的技术放任，而是在安全框架内释放创新活力。只是这需要时间：需要技术迭代完善，需要监管动态适配，需要用户建立理性认知。

潮水退去，方见真金。监管部门的风险提示，不是为创新设障，而是为长远发展清障。通往自由的路，始于对风险的清醒认知，成于多方共筑的信任基石。

这场战争的答案，将定义未来十年人机交互的底层逻辑。

责任编辑：星月