智谱AI CEO张鹏:Agent 让大模型从Chat走向Act

来源: 极新
   
时至今天,我想大家都已经认识到大模型不只是chatbot,其本质在于对世界的“理解”能力以及预测能力。基于这样的预判,过去两年里,智谱致力于将这种“理解和预测”能力融入各行各业及各种场景,与在场众多客户和伙伴进行了大量实践。

篇章一:AI Agent与交互新体验

时至今天,我想大家都已经认识到大模型不只是chatbot,其本质在于对世界的“理解”能力以及预测能力。
基于这样的预判,过去两年里,智谱致力于将这种“理解和预测”能力融入各行各业及各种场景,与在场众多客户和伙伴进行了大量实践。
在探索的过程中,我们也不断思考大模型的“序列预测”意味着什么,以及以何种形式高效应用。如果预测的形式不限于语言文本,而是扩展至图像视频,甚至是操作序列呢?这,就是AI Agent。

AI Agent 是今天非常火的话题,从苹果的 Apple Intelligence、Anthropic 的 Computer Use、谷歌的 Jarvis,到 OpenAI 即将发布的 Operator,全球科技巨头纷纷布局。智谱于 10 月份率先开放了 AutoGLM 的内测,受到了非常多的关注和反馈。

这一应用展现了大模型从对话(Chat)走向操作(Act),从生成式 AI迈向代理式 AI的演进趋势。
值得关注的是,Gartner 已将代理式 AI 列为 2025 年十大技术趋势之一。据其预测,到 2028 年,至少有 15% 的日常工作决策将由 代理式 AI 自主完成。

Agent 带来更符合直觉的人机交互

在大模型技术之前,没有任何方法能实现代替人智能地和机器进行交互。过去的键盘、鼠标、多点触控这样的物理交互形式,到 dos、图形界面和 iOS 这样的操作系统。本质上还是让人来适应机器。
用户至今仍需要花费大量时间去学习形形色色的软件操作界面。现实中复杂的企业软件界面让人无所适从,跨多个的应用来完成复杂的工作流,这中间有大量的重复机械性交互,但却依然必须都由人来手动操作。
大模型正在改变这种互动方式,让机器得以来适应人。

LLM初步具备模仿人类与物理世界互动的能力

当然,这和大模型技术最近的进展密不可分,尤其是自然语言、多模态感知、逻辑推理等能力不断取得的技术突破。
因此,我们看到今天的大模型可以做到像人一样,理解界面、规划任务、使用工具、完成任务,甚至能实现人类的 PDCA 循环,自我提升。总的来说,大模型已经初步具备了模仿人类与物理世界互动的能力。

智谱定义大模型发展的五个阶段,与OpenAI有所不同:
L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

L1 语言能力进程 今天走到80%
L2 逻辑能力 走到60%
L3 使用工具能力进程 走到40%
L4 自我学习的能力 开始探索
L5 探究科学规律 开始探索

在L3使用工具层面,其实还比较初期。尽管展现出比较大的进步,但Agent与人类的表现相比,目前我们人类毫不费力完成的一些操作(滚动、拖动、缩放),对它们来说也是极具挑战的。

LLM多模态感知和智能化交互能力,带来了大模型操作系统 LLM-OS 的可能

随着智能能力从L1发展到L3乃至更高水平,我们有望实现更为原生、自然的人机交互体验——Auto能力,GLM也开始变成AutoGLM。
我们今天也将发布我们Auto的三个产品:
AutoGLM、 web和GLM-PC。

篇章二:AutoGLM 和 GLM PC

无论是AutoGLM和GLM PC,本质都在代替人去操作系统。
这样的能力无论是在终端设备,还是企业软件层面,都具有巨大潜力。

AutoGLM升级

首先是AutoGLM。上一版中已经能够模拟人类操作手机,如点外卖、朋友圈点赞、写点评等。在AndroidLab的评测基准中,AutoGLM的表现已经超过GPT-4o和Claude-3.5-Sonnet。
发布后的一个月内,我们的申请页面已经有超过100万的用户访问,也证明了公众对于大模型操作手机的好奇和热情。在里面我们也看到了一些很实用的场景:有网约车司机使用它导航;有盲人程序员每天使用它料理生活;也有很多忙碌的白领拿它出差订票和点外卖。
全新升级后的AutoGLM,将挑战更高难度的操作。

首先更长,我们现在看到的这个【采购】 demo 里,升级后的 AutoGLM 自主执行了 54步无打断操作。
在多步操作过程中记住复杂指令以及之前的选择。
如果你有一些批量任务,比如要发送每日信息简报给一批客户、采购长长清单上的食材,相信现在的AutoGLM能为你节省不少时间。

在这种超长的多步、循环任务中,AutoGLM表现会比人手动操作更快。这个demo我们算了一下AutoGLM与人手动操作的对比,总时间已经要比人快一些了。
单步速度方面,我们近期还将做进一步的迭代与优化。

然后,应用户强烈要求,AutoGLM能跨App操作了!
用户可以把一些类似于「机票比价、外卖比价」,或者你需要策划一场聚会,这类需要跨多个app的任务,直接交给AutoGLM自动处理,无须再自己手忙脚乱了。
这背后是模型具有强大的泛化能力和思维链能力,它可以听懂简单命令,并生成越来越复杂的指令序列,调用越来越多的应用 app,实现自主连贯操作。
能够跨app,某种程度上代表AutoGLM有能力解锁更大的商业空间。AutoGLM在用户和众多应用间添加一个APP执行的调度层,升级人机交互。
跨app的能力其实是里面非常关键的一步。对于用户来说,得以跨越应用墙,也可以带来更多的应用组合方式。比如我可以在小红书看帖子时,随时唤起购物App。
在产品侧,我们也基于用户的一些反馈,做了一些新玩法。
今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖”,这类超长指令。只需要说“点咖啡”。AutoGLM能够支持自定义短语,自动关联长任务。
另外,我们特别开启了一个新玩法,“随便模式”,过程中的所有步骤都能让AI主动帮你决策。但是当涉及到发送、下单付款等重要操作时,AutoGLM会主动将选择权重新交回给你。
想不想尝尝AI为你点的咖啡口味,或者AI为你选的约会餐厅?也许会有抽盲盒式的惊喜哦!
今天,我们启动AutoGLM大规模内测,并会尽快上线成为真正面向广大C端用户开放的产品。
我们同时启动,10个亿级APP免费Auto升级项目。
支持核心场景和核心应用的AutoGLM 标品API会在两周内上线到智谱maas开放平台试用,届时各位伙伴及客户可以和我们联合探索,解锁自己的Auto新商业场景。

AutoGLM开启「全自动」上网新体验

Web端也Auto了。即日起智谱清言插件上线 AutoGLM 功能。支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。
在这个demo里面,AutoGLM-Web自动完成了“在百度搜索芒果tv,打开再见爱人,播放最新一集,发弹幕”。全程没有人的干预。

GLM-PC是面向「无人驾驶」电脑的一次技术探索

不只是基于 手机和浏览器。
今天我们带来基于PC的自主Agent,GLM-PC,
这是GLM团队面向「无人驾驶」PC的一次技术探索。
我们先来看一个视频。

暂时无法在飞书文档外展示此内容

这个视频里展现了agent自主操作手机、PC,以及手机和PC联动的场景。

GLM-PC 未来我们希望它是能操作电脑的桌面助手,帮助大家处理一些日常琐碎工作。
目前,我们开放第一阶段的内测体验场景包括:
  • 信息:适配微信、飞书、钉钉,可向联系人或群聊发送发信息
  • 参与会议:适配腾讯会议、飞书会议等,可定会议日程、发送会邀;可定时加入指定会议
  • 文档处理:支持文档下载、文档发送、理解和总结文档
  • 网页总结:可打开浏览器,在平百度、公众号、知乎、小红书等平台搜索关键词,进行阅读总结或者翻译等
以及,还能完成远程和定时任务。在刚刚的视频中,当你下班不带电脑,领导又让你发电脑上的文件,你就可以用手机给 GLM-PC 发消息,让GLM-PC 自动进行电脑操作,帮你发送文件。
在开机状态下,GLM-PC会定时执行任务。比如让它帮你定时发日报,或者凌晨3点给老板发一个文件。

GLM-PC有更高能力上限:教 AI 像人一样学会使用电脑

GLM-PC的技术路线是一种拟人的多模态的感知,基于智谱自研模型CogAgent,这也是世界首个UI Agent视觉基座模型。模型仅需视觉截图作为输入,无需依赖HTML等语言表征,可应用至任意图形用户界面,具备极强的跨平台、跨系统泛化能力。
简单来说,GLM-PC用电脑的方式几乎完全和人一样。人在电脑上办公的过程——用眼看图形、图像、文字,然后用脑规划,再用手执行单击双击、滚动、输入、悬浮等操作。同样的,GLM-PC也是把用电脑的动作拆解如上,最终准确输出具体动作(精确至坐标)。
也正因如此,GLM-PC并不依赖于HTML、API,有着更高的能力上限。理论上,只要是为人类设计的应用,在GLM-PC学习之后它都能够执行。这是一种系统级、跨平台的能力。
不过,由于PC的复杂程度,以及大家在PC完成任务的复杂程度,想让大模型真正用好PC,真正能够帮助大家办公的难度还是非常大的。
坦率的说,GLM-PC目前离真正面向真实场景还有一些路要走,在目前的内测体验中,用户仍需要精准输入指令。我们也会继续努力,在产品完善后尽快上线,供所有用户使用,同时也希望和更多厂商联合共创共同探索。

Live Demo 环节



1、AutoGLM现场面对面建群
  • 对荣耀手机autoglm(在手机第三屏)发布指令:帮我创建一个面对面群聊,数字为幺幺二九,并将群聊名字改成智谱开放日。


2、AutoGLM给现场群发微信红包
  • 在观众加入群聊之后:帮我在智谱开放日的群聊里发个一万的红包,数量为一百个,名字为"AI给你发的第一个红包"。
  • 如果大额红包任务出错,则发布这个100%成功的小额case:帮我在智谱开放日的群聊里发个一千五的红包,数量为十个,名字为"AI给你发的第一个红包"。


3、AutoGLM给线上群发支付宝红包
  • 今天线上也有很多同学,在同步看我们的直播,我们给线上的同学也发一下红包。帮我在支付宝发八百八十八个,总额为一万的口令红包。


4、GLM-PC给现场群发文件
  • 鹏总通过荣耀手机上的GLM-PC网页(在手机第三屏),对cogagent发布指令:微信给智谱开放日,发送文件:智谱开放日新闻稿.pdf


5、AutoGLM-Web给微博点赞
打开百度搜索的界面(跨网站),打开插件,选择高级模式,点击AutoGLM,在输入框中发布指令:
  • 打开微博,帮我给王心凌的微博点赞并发布评论
 

篇章三:智谱 agent 布局



大家看到的上面这些 agent 能力,不是一蹴而就的.
智谱对 agent 技术的研发由来已久。
从23年4月的AgentBench开始,到8月的CogAgent模型,24年的多项成果,智谱针对于AutoGLM,和GLM-PC的模型CogAgent的研发工作,也进行了一年半的时间。
未来,我们还将继续加速对 agent 模型产品的研发。
期待着一句话操作电脑和手机的范式,尽快到来。

LLM多模态感知和智能化交互能力 带来了大模型操作系统 LLM-OS 的可能

相信在刚刚的分享中,大家也能感受到。目前的Agent能力能够帮助用户链接众多应用,未来甚至有望链接所有设备。理论上,随着Agent能力持续提升,它们将能够驾驭越来越多的应用程序,适配多样化的操作系统,并执行日益复杂的自主操作。可以说,这是大模型通用操作系统LLM-OS的初步形态。

篇章四:引出智能设备

为此,智谱已在芯片、操作系统OS 、模型侧和应用app侧,进行了一段时间的探索。
在终端层面,智谱已经和手机厂商、PC厂商实现深度合作,在 AIPC、智能助手Agent等领域有诸多成果。我们也与高通、英特尔等芯片厂商展开密切协作,联合调教端侧大模型,以充分发挥最新芯片的性能。

通过端侧芯片性能优化和端云一体架构,Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。
这种扩展,具体到当下的各种设备,从手机到电脑,再到汽车、眼镜、家居和各种 edge side 设备,理论上是没有边界限制的。

在之后的环节,我们COO张帆也将为大家一一介绍。今天在现场,我们也非常荣幸的邀请到了荣耀 小鹏 华硕 高通 英特尔等客户与伙伴代表。感谢大家。
我今天的分享就到这里,下面的时间交给GLM大模型技术团队的同学。谢谢大家!

责任编辑: 椰子

相关资讯
写评论