百川智能创始人王小川:拥抱大模型的人能够使得自己更加自由

来源: 极新
   
“ 理想上慢一步,落地上快三步 ”

整理 | 云舒

出品|极新

4 月,王小川成立大模型公司「百川智能」;
6 月,百川智能发布 70 亿参数开源大模型Baichuan-7B;
7 月,百川智能发布 130 亿参数开源大模型Baichuan-13B;

10月30日,百川智能发布Baichuan2-192K大模型。

百川智能的研发进度超过人们的想象,半年内接连推出四款大模型应用,并开始进行商业层面的布局,为TO B行业做准备。

那么,百川智能看到了哪些行业趋势?在热风口下有哪些冷思考?AGI时代的开源、闭源、落地指向哪里?

带着这些疑问,极新通读了近半年百川智能创始人王小川的公开演讲与采访,找到了打开疑问之门的钥匙。

图片

王小川,百川智能创始人兼CEO,曾任搜狗公司CEO,前搜狐高级副总裁兼CTO 、搜狗公司董事。

以下为王小川公开演讲与采访的节选。

 

01

AGI是否已经到来

“2023年是大模型元年”

AGI(通用人工智能)是否已经到来?以前人工智能都是专项,需要一个一个单独的任务。而AGI就像人一样,什么都能干,而且每件事情能够干得比人好。

这是今年2月开始行业技术圈中一个非常大的争论,现在大家已经开始有了阶段性的结论。4月,微软发布了一篇重要技术报告,大概四百多页,认为GPT-4已经开始具有初步的通用人工智能,AGI已经开始来临,这是一个巨大的分界线。

我沿用马化腾在今年5月的一段话,“最开始以为互联网十年不遇的机会,越想越觉得是几百年不遇,类似于发明电的工业革命。”工业时代开始于18世纪60年代,这里提到的“几百年”,就是把历史放到工业革命之前。如今,不管是学术界还是顶尖的企业家,都认为这是一个技术层面到数据层面巨大的变革。因此2023年是大模型元年开始,人类从信息时代走向智能时代,走入新的快车道。

 

02

开源OR闭源

“开源闭源不是竞争关系,而是不同场景下的互补的关系”

百川智能是新兵,作为后发者进入市场,开源对我们来讲,能给中国的开源生态作一些贡献,同时展现我们的技术实力,开源后只要持续不断技术迭代,就会有自己的商业模式。

现在有超过200家企业申请使用百川模型,很多都是行业头部企业。商业化工作也会开展起来,借助开源引擎,还有更好的参数模型,以及整套组件也在研发当中,能统一提供部署。

开源有这样的几层意义。第一层是营销行为,要告诉我行不行,有用没用,后发者可以后发制人,更容易使朋友多多,能够让大家迅速去评测了解。第二层的意义是,开源有时是为了商业化做储备,有了各种用途和生态之后,就有了收费的可能。这在国外有探索,中国虽然之前不成功,但依然可以借鉴。

百川智能的开源与闭源和模型大小相关,参数大的部署成本已经开始增加,这种情况下我们就选择走闭源。但原来说开源是开放论文、代码,GPT-1和GPT-2就是这样,让别人去复刻,我们只是开放模型的能力,让B端都能够用到,和OpenAI是不一样的模式。

从2B角度看,未来开源闭源都需要。我们认为可能未来80%的企业会用到开源模型,闭源没办法对场景做特别好的适配,能力是强,但成本非常高。但开源模型可以做到非常小巧,很多地方非常好用。开源闭源不是竞争关系,而是不同场景下的互补的关系。我们更关心2C怎么做、2B怎么做,而不是纠结开源闭源的问题,这个共识在逐步形成当中。

虽然闭源的成本高,但提高竞争力不是不可能的事情。主要有两点,一是把模型做得足够好,拼的是模型的能力。二是把推理的成本降下来,这是世界性难题。作为新手还要摸索,我们有能力做到极致优化,其他人能做到我们也能,甚至做得更好。

 

03

AGI的世界会变成什么样

“大模型不是工具,而是人类的伙伴”

今天大模型在整个世界中处于什么位置?我们走出了物理学的框架,建立语言建模,但生命建模还没有开始,所以语言建模代表的是对世界的认知,不是对生命的认知。

什么行业会被改变?现阶段的共识分为三个领域:

1.生产力方面,指给企业本身赋能,调用的时候能够使得知识的推理速度Insight更多。

2.智能助理这个领域,不再是简单工具调用,更像是伙伴。可能未来,它是你的私人医生、私人律师、搜索助手、购物达人,就是像人一样能够帮助我们,像L1、L2、L3的无人驾驶,现在是CoPilot辅助决策,未来是智能助理时代。

3.如果没有大模型的支持,元宇宙是做不起来的,Word Model is World Model(词的模型是世界的模型),不仅是文生图、文生视频,甚至能够做到世界的驱动引擎,以游戏行业为代表首先会带来新的颠覆。

那么,什么职业会被取代?什么工作会产生变化?

这个问题,不管是做老板的还是做员工的,甚至有育儿需求的爸妈都在问。我们知道今天大模型其实处于“读万卷书”的阶段,但没有“行万里路”,还缺少线下的经验。

简单来讲,坐在电脑前的工作大概率都会被取代,电脑面前坐的时间越长,这个工作就会变得更加危险。如做平面设计,现在发现几行指令就能够做到,要是出去采风、采点,跟别人交流的工作就会好很多。如果只会坐在电脑面前写代码,回头把自己取代了。

预测和预言也是这样,今天我们讲的是第二次工业革命,那这次的和过去提到的工业革命有什么本质的区别?工业革命带来了高度的社会分工,社会分工越细效率越高,每个部门专职做一件事情效率最高,但这样也会形成社会的阶层。

智能时代有一个词叫“端到端”,原来分得很细的工种现在被一个模型从头到尾取代。技术行业如此,公司内部很多事情也是这样,游戏公司有人做策划,有人做美工,有人做产品,最后变成一个人把一个团队的事情干了。开玩笑地说,一个人就是一个公司,端到端的分工相对减弱,变得更加扁平,有些率先拥抱OpenAI技术的公司里面已经开始出现很多裁员。

我们也能看到一个大的变化,今天的大模型不是工具,而是人类的伙伴。因为工具是做连接的、做信息的,而这次已经有完整的语言能力,极好的对语言的沟通能力,能够在中间通过部分学习经验,经过产品化以后可以提供服务。

大模型往下很多时候造出来的都是像人一样的助手,可能是个老师,是个医生,是个律师,就是虚拟的角色,这是和产品服务不一样的逻辑。文艺复兴让人变得更厉害了,现在大模型来了以后人可以超越个体,不用大模型的人会被取代。拥抱大模型的人能够使得自己更加自由,你想成为什么样的人就问这个模型,模型会给你一些实现的路径,因此更能够做出你想做的事情。

我在这里引用三个方向:怎么做GPT-4、怎么做超级应用、怎么创造健康快乐。健康和快乐,大家特别容易理解,就是有帮助的地方;创造,是使得每个人有根本的诉求,因为它的存在这个世界有所不同,因此机器通过生产率的提升赋能一个人,能使这个人更有改变世界的力量,使其成为一个更有用的人,这个就是创造。这是百川未来在这三个方向引导模型发展的能力。

 

04

明年会有若干大模型超级应用产生

“理想上慢一步,落地上快三步”

我非常坚定地相信,明年中国会有若干款超级应用产生。

百川智能发布第一款模型时,我总结过“在理想上比美国慢半步,落地却比美国快半步”。

今年6月,我去了一趟美国,回来以后调整了一下,“理想上慢一步,落地上快三步”。跟OpenAI的人聊天时得知,他们做GPT-3需要4000张卡做训练,GPT-4需要2万张卡做训练,现在是把1000万颗GPU连在一起训练新的模型——这是在以巨大的规模做设计。

英伟达一年的生产能力只有100万颗,而OpenAI要连接1000万颗GPU,这样的想法像登月一样,所以我内心对他们充满了一种敬畏。

但是我们在做应用方面可能走得更快,我们的落地能力更强,模型能力差一些,模型能力赶上后在应用上就会有一个快速的反超。

搜索和模型的关系是技术上的问题,我们会给大家提供开源的产品,美国OpenAI今年年初让大家都很震撼,他们提供了API调用。但在美国更有颠覆性的事情就是今年Meta做的一个开源项目叫做Llama 2,使得很多企业不用调用那么昂贵的API,自己就用一个模型把自己公司的数据做得更好,形成开源闭源的两个体系改变竞争格局。

我们4月10日宣布入场,6月发布第一款7B参数的开源模型,得到业界最顶尖水平的肯定,英文上能跟Llama对标,中文上达到更好的水平。同时,还能免费用,能在公司里自己做相应的部署。7月,我们发布了13B参数,同时达到最好的效果,作为科技强国献礼。8月8日,我们发布53B的模型,尺寸相对比较大,部署起来比较困难,因此我们就没有走开源,而是走了闭源。我们用三个月,发布了三款模型产品,推动中国开源模型的进展。

责任编辑: 黔小景

相关资讯
写评论