梁军履新一年,昉擎科技半年融三轮超5亿人民币

来源: 暗涌Waves
    作者: 暗涌Waves        
AI芯片及系统架构研发商“昉擎科技”Pre-A轮融资于近日完成交割,产业投资人包括某互联网大厂、芯联资本以及恒生电子旗下产业基金翌马资本,财务投资人包括广发信德、某头部VC机构等,老股东临港科创投、三七互娱也同时进行超额加注。

AI芯片及系统架构研发商“昉擎科技”Pre-A轮融资于近日完成交割,产业投资人包括某互联网大厂、芯联资本以及恒生电子旗下产业基金翌马资本,财务投资人包括广发信德、某头部VC机构等,老股东临港科创投、三七互娱也同时进行超额加注。Pre-A轮具体融资金额与估值未透露。

这已经是近半年内昉擎科技完成的第三轮融资。历史投资人包括:小米战投、蔚来资本、明势创投、临港科创投、华业天成、高捷资本、三七互娱、新智认知、达武创投等产业及财务机构。近期融资金额已超5亿元人民币。筹集的资金将用于核心技术研发、产品化,以及生态及市场拓展。

昉擎科技成立于2022年底,注册地位于上海自贸区临港片区。2024年8月,前寒武纪CTO、前华为海思麒麟SoC首席架构师梁军加入昉擎科技,出任CEO。

进而,昉擎科技提出了一种新技术方向:“上下文相关”(context aware)与 “上下文无关”(context free)解耦的分布式计算架构,即将前馈神经网络(Feed-Forward Network, FNN)与注意力机制(Attention)解耦为两个独立模块,将它们分配给最适合的硬件架构来做分布式处理,而非像传统Transformer那样将两者串联在同一层中,从而提高整体计算效率。

从资本的视角看,梁军的名字在芯片领域本身就意味着一种系统级的视野。

作为中国芯片领域少有的兼具顶级通用SoC与高性能AI芯片操盘经验的架构师,梁军的履历几乎贯穿了中国芯片设计从追赶到爆发的整个黄金二十年。他曾在华为海思任职17年,是麒麟SoC芯片的首席架构师,一手打造了麒麟970这一全球首款集成NPU的手机SoC,让“端侧AI”的概念真正落地;2017年,他转身加入寒武纪出任CTO,主导了这家AI芯片独角兽早期的技术规划与产品研发,经历了从独角兽到科创板上市的完整周期。

梁军这种“见过高山、还亲自领队攀登”的经历在当下的一级市场无疑是稀缺资产。而资本对昉擎科技的重注,不仅仅是投人,更是投向一种打破现有算力垄断的可能性。

2025年被视为AI应用爆发的决定性一年。随着DeepSeek等国产大模型掀起新一轮浪潮,以及字节跳动、腾讯、阿里等巨头宣布千亿级的AI基础设施投入,算力焦虑从未如此具体。但在这一轮热潮中,资本的逻辑也在发生微妙的变化:从单纯寻找英伟达的“平替”,逐步转向寻找能够突破Transformer架构效率瓶颈的“新物种”。

传统的Transformer架构将负责记忆和上下文的Attention与负责逻辑和知识的FNN串联在同一个芯片层级,存在较为严重的效率浪费——当你只想让AI做简单的逻辑推理时,它不得不拖着沉重的记忆模块一起运转;而当你需要处理超长文本时,巨大的内存吞吐需求又会把计算单元堵得水泄不通。

正因此,也出现了GPGPU、RVV(RISC-V向量扩展)、存算一体、“以快换大”的SRAM等完全不同解决路径。昉擎科技提出的分离式架构亦是一种新尝试。

梁军告诉我们,芯片设计的第一优先级应从追求单一芯片性能、集成度的提升,改为优先追求一个可扩展的系统设计。从实际应用上看,昉擎新尝试能将计算能力从单一的SoC中心解放出来,让智能眼镜、耳机等边缘设备有机会成为与手机平权的计算节点。

“当把第一优先级改为优先追求一个可扩展的系统设计之后,会改变现有的AI硬件设计思路,有机会开拓出新的系统形态,创造出新的市场。”

这或许也意味着,昉擎科技的天花板不仅仅是一家AI芯片及系统架构的设计公司,而存在定义下一代AI硬件系统的平台级机会。这种想象空间也部分解释了为何在短短时间内,它能迅速集结包括互联网大厂、硬件巨头、车企、国资及头部VC在内的豪华股东阵容。

当一位顶级架构师带着他对“后Transformer时代”的全新思考回归舞台,笃信“AI即未来”的资本们确实难有理由错过这场赌注。

与昉擎科技CEO梁军的对话——

目前国内GPU芯片公司异常火爆,摩尔线程上市暴涨,沐曦也在上市流程中,华为也转向了GPU架构,你对于GPU芯片的未来发展怎么看?

梁军:GPGPU架构(注:通用图形处理器,用于非图形计算任务,强调通用计算能力)是面向高并发,高吞吐的设计,想要同时达成低延迟的目标,需要付出更大的代价和成本。

同时,相比全球的竞争对手,中国公司在供应链上受到的限制更多,在包括制程被管制的约束下,困难会更大。换句话说,中国公司付出的代价会更大。

国内很多公司转向GPGPU架构,除了基于和Nvidia现有软件系统兼容性更好的考虑,另外一个原因是基于过去数年产品在市场上的反馈,认识到市场本质上还是一个面向通用计算的市场,底层在面向通用计算设计上的欠缺会在某个时刻反映到产品难以支持客户需求上。

从研发组织和管理的角度,当把组织目标定义为兼容CUDA时,很大程度上不再需要从应用层需求去反推底层软硬件实现是否合适,把英伟达的设计作为标尺,在底层直接比较软硬件实现是否匹配即可,研发管理会简化很多。付出的代价是,基于供应链的现状,产品所能达到的上限也被限定了。

与之相比,昉擎的架构新在哪里?

梁军:昉擎的目标是成为一个定义创新系统的公司,所以我们选择了另外的路线,面向的市场也完全不同。

面向通用计算的设计之所以困难,是因为底层大量的设计细节,最终都会反映在编程接口上。在维护编程的通用性和专用硬件做加速之间做平衡,这不止是技术问题,也是研发组织管理问题。

在运营一个有很好技术品味的团队的同时,还能做到按时交付是一项挑战极大的工作,但是以我们的经验来看,这仍然是可以做到的。

新的技术架构上也涌现了很多公司,国内以昆仑芯为代表,海外有Groq、Tenstorrent等公司。你怎么评价目前主流架构的方向?

梁军:以最底层的计算核的设计而言,已经归并到有限几种选项——

一种就是GPGPU,对程序员提供CUDA兼容或者类似CUDA的编程接口。

另外一种是在2021年下半年RISC-V RVV(RISC-V向量扩展)V1.0版本发布之后,基于RISC-V设计计算系统。这种做法的优势在于底层采用开源的指令集设计而非私有指令集,对客户而言软件投资的风险会大幅降低。但也有问题,当前的问题在于,几乎所有的厂商都是基于CPU的设计思路去做设计,实际需要的仅仅是兼容RISC-V指令集,硬件设计要以全新的思路去实现。

第三种是云厂商的私有设计。因为是以服务的方式销售,芯片设计在通用性上的欠缺可以通过系统设计来弥补。这一方式做得最好的是Google。在花了八,九年迭代了七代芯片之后,今年面向特定大客户有突破。Groq可以认为也是这一类,因为LLM的decode阶段是串行输出,Groq的设计追求极致的延迟,系统的吞吐等于并行度乘以延迟的倒数,这样在用户体验和per token的成本上可以获得竞争优势,代价是牺牲了编程的通用性,所以采用基于服务的方式销售。

昉擎和它们都不一样?

梁军:昉擎的路线是基于分离式架构设计系统。我们认为,分离式结构,是更高层面的计算架构和编程模型,是当下所关注的重点。底层计算核心的路线选择,这个问题已经不再是关注的重点,早已有明确性的结论。前两种做法属于尺有所长,寸有所短,我们并没有强烈偏好。任何一种路线做好了都可以满足市场需求,但是在维护编程的通用性和专用硬件做加速之间做适当的平衡,在此方面的需求是一致的,需要软硬件团队对此有正确的认知。

另外,在分离式架构的定义里,系统被分解成了上下文相关部分,上下文无关部分,原生支持异构计算。

你强调“上下文相关”与“上下文无关”解耦的分布式计算架构。这是基于怎样的思考?

梁军:人工智能系统从计算本身而言,是大规模并行计算。具体到对输入输出序列的处理,因为不同序列之间不相关的特点,从软件到底层硬件所采用的实现方法,和处理权重相关的计算所采用的实现方法,二者之间有显著差别。也可以认为,分离式结构是面向这种应用的更高层面的计算架构和编程模型。

计算范式正在快速的从以处理器为中心的计算系统设计转移到以Memory为中心的计算系统设计。在AI模型大行其道的当下,计算范式的转移是事实,但是还未被广泛的认知。这也是近年来存内计算,近存计算等概念行业内声音很大的真正原因。只是当下的讨论很大程度上是从硬件视角出发的认知,从计算范式转移的角度会有全新的解释。

无论KV Cache,还是权重,在很大程度上都可以定义为Memory。传统意义上的Memory有2个属性,容量和带宽,新的Memory增加了2个新的属性:计算语义和通信,变成了4个维度。如果做一下对比,对输入输出的处理部分更像是冯诺依曼架构里的处理器,对权重相关的处理部分更像是传统处理器里的Memory。同时我们认为,这两部分很大程度上可以被视为新的Memory。

基于这些认识,我们重新审视了系统设计的方式。很多年以来,系统设计的趋势是采用更高的集成度,SoC性能越来越高,集成越来越多的功能。面对当前算法的演进,单个SoC受限于物理约束,在带宽、内存容量等方面所受到的局限越发显得突出。

我们认为,芯片设计的第一优先级应从追求单一芯片性能、集成度的提升,改为优先追求一个可扩展的系统设计。从这一角度出发,采用分离式结构设计系统成为合理的选择。

具体来说,这个架构能从哪些方面提升芯片能力?

梁军:在分离式架构的定义里,系统被分解成了上下文相关部分,上下文无关部分,二者之间的通信,系统扩展就从一个维度的扩展变成了多个维度的扩展,系统里各个组件之间的边界定义是清晰的。我们从这个视角出发,审视了各种各样的计算系统,结论是非常正面的。不但可以设计出更多形态的计算系统,创造出新的市场,加速各种应用的部署,而且因为是在系统层面做组合,系统开发可以和芯片开发周期适度解耦。同时,因为不再需要设计一个全功能的SoC,芯片的成本,开发成本也可以降低,这也有利于加速产业的创新速度。

如果用一个最通俗的例子向大众解释,你想要解决的痛点是什么?

梁军:举例而言,手机的SoC系统改成分离式架构之后,手机、智能眼镜、智能耳机、智能手表等设备都可以作为独立的输入输出处理器接入权重处理器,或者讲传统意义上的SoC处理上下文相关部分,系统里新增一个权重处理器处理上下文无关部分。所以,只要你认为模型的能力会越来越强,各种IO处理器,像耳机、眼镜这部分设备只需要接入权重处理器就可以独立完成更多的功能,在现有的系统定义里这些设备是手机SoC的附属设备,在新的系统里这些设备和手机SoC是对等的。

我们的判断是,当把第一优先级改为优先追求一个可扩展的系统设计之后,会改变现有的AI硬件设计思路,有机会开拓出新的系统形态,创造出新的市场。

在CUDA生态依然强势的今天,昉擎的架构与CUDA之间是一个怎样的关系?会否涉及客户迁移成本的问题?

梁军:基于分离式架构设计的系统,原生支持异构计算。无论是上下文无关部分,还是上下文相关部分,都可以基于现有的系统构建。从这个角度讲,基于分离式架构的系统,是和现有系统兼容性最好的设计,这一点从某种角度上讲是反直觉的。

整个行业仍在快速演进,昉擎的策略是基于分离式架构设计系统,系统各个组件解耦之后,创新的速度会加快,可以定义出更多形态的计算系统,创造出新的市场,而不是对现有系统做替代。

四年前你离职时,有很多猜测,最终为什么选择了加入一家创业公司?

梁军:答案很简单,就昉擎的目标而言,这样的工作,更适合由创业公司完成。创业公司没有历史包袱,做决策时更简单;另一方面面对市场和资本市场的挑战,必须做出创新和与众不同的产品才能生存;团队小,对技术细节可以投入更多的精力。

我是2024年8月加入的。那之后,昉擎也引入了多个产业方股东。产业方股东认同昉擎的团队有能力以系统化的方式完成技术平台开发、市场定义和产品研发,认可目前各项工作的进展,并愿意给我们提供资金支持。所以,从目前看,我的这个选择是正确的。

另一方面,我与前公司之间有涉及巨大金额的劳动纠纷,这已经为公众所知晓。在这一背景下,经过2年的竞业期之后,我重新进入就业市场的难度非常非常高。对现实的认知,以及做出难且正确的决定,我相信自己的判断。

现在人们提到你时,还是会说你是前寒武纪CTO、前华为海思麒麟SoC首席架构师。5-10年后,你希望人们如何介绍你?

梁军:中国市场不缺高科技公司。在底层科技上有持续的技术原创、有很好的技术品味,同时又有在市场上获得成功的超级产品,这样的公司是市场上少见的。这是我为昉擎设定的未来目标。那天到来的时候,我希望大家这样认知我——梁军是昉擎的CEO。

责任编辑: 星月

相关资讯
写评论