高通万卫星:骁龙8至尊版强大AI能力加持,多模态AI正加速终端侧部署
11月29日,智谱Agent OpenDay活动在北京召开。高通公司AI产品技术中国区负责人万卫星受邀出席本次活动,并带来了以“加快多模态生成式AI的终端侧部署”为主题的精彩分享。万卫星指出,端侧的多模态支持将拥有更多的可能性,我们将有望看到声音、视觉、甚至更加复杂的视频等模态,在不久的将来实现端侧化部署。
11月29日,智谱Agent OpenDay活动在北京召开。高通公司AI产品技术中国区负责人万卫星受邀出席本次活动,并带来了以“加快多模态生成式AI的终端侧部署”为主题的精彩分享。万卫星指出,端侧的多模态支持将拥有更多的可能性,我们将有望看到声音、视觉、甚至更加复杂的视频等模态,在不久的将来实现端侧化部署。
会上,他分享了高通公司最新发布的骁龙8至尊版移动平台在终端侧生成式AI技术上的一系列关键升级,全新的骁龙8至尊版拥有更加强大的高通AI引擎,集成第二代高通Oryon CPU和面向生成式AI优化的Hexagon NPU,拥有强大的AI性能、能效和异构计算能力,能够为多模态生成式AI在终端侧运行提供更好的支持。基于强大的终端侧AI能力,高通正在携手智谱等领先大模型厂商,探索终端侧多模态生成式AI用例创新的更多可能,推动多模态AI的终端侧部署。
以下为演讲全文:
大家上午好,我是来自高通公司的万卫星,目前主要负责芯片AI相关产品技术。非常感谢智谱的邀请,让我能够来到智谱Agent OpenDay活动,跟大家分享高通公司作为芯片厂商,如何支撑大模型、尤其是多模态大模型技术的飞速发展和在终端侧的部署。
首先简单回顾一下过去两年高通在终端侧生成式AI方面的技术进展。2023年初的MWC巴塞罗那期间,我们就带来了全球首个运行在Android手机上的终端侧文生图技术演示。随后我们也陆续支持了越来越多的终端侧AI用例,比如图生图、AI图像擦除、AI扩图等,并在携手我们的合作伙伴推动这些AI用例的产品化落地。
在今年年初的MWC巴塞罗那上,我们也推出了全球首个在Android智能手机上运行的大语言和视觉处理大模型,这是一个大型的多模态语言模型在终端侧运行的项目,在这个技术展示中我们能够支持文本、语音、图片等多种类型的数据输入。
现在,我们相信随着像智谱这样的优秀大模型厂商在算法技术上的不断发展,端侧的多模态支持将拥有更多的可能性,我们将有望看到声音、视觉、甚至更加复杂的视频等模态,在不久的将来实现端侧化部署。那么高通公司作为芯片厂商,如何在芯片上满足生成式AI这么多模态的数据的终端侧部署呢?
我们今年10月在骁龙峰会上刚刚发布的骁龙8至尊版移动平台,可以说是重新打造了整个芯片设计,提供了一个更加强大的高通AI引擎。全新高通AI引擎中最具亮点的部分就是第二代定制高通Oryon CPU,这是高通Oryon CPU首次登陆骁龙旗舰移动平台,它不仅可以提供更好的性能,也能够实现更快的系统应用和第三方应用启动速度,为时延敏感型推理任务提供支持,对于在CPU上进行处理的AI工作负载提供更好的推理加速。
在高通AI引擎这一异构计算系统里面,除了Oryon CPU之外,我们还有其他诸多的AI处理器单元,像大家熟悉的高通Hexagon NPU、Adreno GPU和传感器中枢,这些处理器都可以独立或者协同去完成复杂的AI推理任务。简单介绍一下骁龙8至尊版上搭载的最新高通Hexagon NPU,我们专门面向生成式AI进行了一系列优化。
前面演讲嘉宾提到了大模型的尺度定律(Scaling law)其实在慢慢的转向推理端,我非常认可这个观点,我们可以通过Scaling law持续在端侧去提升AI推理的性能。我们怎么做到的呢?这里给大家展示一下骁龙8至尊版NPU的硬件架构提升,具体包括以下几点:第一我们提供更大的张量加速器内核来应对算力要求比较高的场景,包括图片、视频生成场景、大视觉模型处理等等。第二,我们增加了更多的标量和向量加速器内核,来支持目前最主流的大语言模型和多模态模型,以及在影像等传统AI用例领域的多场景并发和多模型并发处理。
第三,大语言模型的运行非常依赖内存带宽,所以为了实现更好的性能表现,我们也在持续地提升处理器的内存吞吐量。前面也介绍到骁龙8至尊版实现了整个平台的全面重构,性能与前代平台第三代骁龙8相比有非常大的提升。在NPU性能方面,它跟前代平台相比有45%的提升。此外我们还将AI每瓦特性能提升45%,这对于AI模型的端侧化和嵌入式设备的产品开发落地来说意义重大。简单来说,就是在我们的手机或者是一些嵌入式设备的产品化过程中,功耗是影响产品能否成功落地的一个非常关键的因素。
回到大模型,大家都非常关心大模型的token生成速率,骁龙8至尊版实现了高达100%的终端侧token生成速率的提升。在多模态大模型方面,高通公司和智谱达成了深度合作。我们能够支持智谱GLM 4V端侧视觉大模型以超过70 tokens/秒的速度在终端侧高速运行。
前面我们介绍了骁龙8至尊版的性能表现,除了能够支持在端侧运行多模态大模型和其他的生成式AI用例,我们的终端侧AI还有非常多的优势。其中最重要的两点就是隐私性和个性化服务。手机上的传感器,包括摄像头、Wi-Fi、蓝牙或者麦克风,这些作为数据的生产者或者采集者,都在端侧。所以在离这些数据产生最近的地方完成数据推理,非常有利于保护用户的隐私,并基于这些具有隐私性的终端侧情境信息,为用户提供个性化服务。为了支持用户的个性化服务,我们还有一个专门的、独立的高通传感器中枢模块。骁龙8至尊版的高通传感器中枢与前代平台相比,性能提升高达60%。
下面给大家展示一个端到端的AI语音助手,从整个处理管线来讲,如果要完成这样一个端到端的AI助手用例,需要非常多的大模型模块,包括自动语音识别(ASR)模块、文本到语音转换(TTS)模块、大语言模型(LLM),甚至包括多模态模型等。高通强大的异构计算系统非常适合于支持这些不同的模型流畅、高效地跑在不同处理器单元上,共同打造一个丝滑的端到端AI语音助手。
最后,我想分享一下高通与智谱最近的合作进展。高通公司和智谱在很多产品赛道上都有非常密切的合作,包括汽车数字座舱、手机移动平台等等,我们双方正在共同携手,加速包括多模态模型在内的生成式AI在终端侧的部署。
会上,他分享了高通公司最新发布的骁龙8至尊版移动平台在终端侧生成式AI技术上的一系列关键升级,全新的骁龙8至尊版拥有更加强大的高通AI引擎,集成第二代高通Oryon CPU和面向生成式AI优化的Hexagon NPU,拥有强大的AI性能、能效和异构计算能力,能够为多模态生成式AI在终端侧运行提供更好的支持。基于强大的终端侧AI能力,高通正在携手智谱等领先大模型厂商,探索终端侧多模态生成式AI用例创新的更多可能,推动多模态AI的终端侧部署。

以下为演讲全文:
大家上午好,我是来自高通公司的万卫星,目前主要负责芯片AI相关产品技术。非常感谢智谱的邀请,让我能够来到智谱Agent OpenDay活动,跟大家分享高通公司作为芯片厂商,如何支撑大模型、尤其是多模态大模型技术的飞速发展和在终端侧的部署。
首先简单回顾一下过去两年高通在终端侧生成式AI方面的技术进展。2023年初的MWC巴塞罗那期间,我们就带来了全球首个运行在Android手机上的终端侧文生图技术演示。随后我们也陆续支持了越来越多的终端侧AI用例,比如图生图、AI图像擦除、AI扩图等,并在携手我们的合作伙伴推动这些AI用例的产品化落地。
在今年年初的MWC巴塞罗那上,我们也推出了全球首个在Android智能手机上运行的大语言和视觉处理大模型,这是一个大型的多模态语言模型在终端侧运行的项目,在这个技术展示中我们能够支持文本、语音、图片等多种类型的数据输入。
现在,我们相信随着像智谱这样的优秀大模型厂商在算法技术上的不断发展,端侧的多模态支持将拥有更多的可能性,我们将有望看到声音、视觉、甚至更加复杂的视频等模态,在不久的将来实现端侧化部署。那么高通公司作为芯片厂商,如何在芯片上满足生成式AI这么多模态的数据的终端侧部署呢?
我们今年10月在骁龙峰会上刚刚发布的骁龙8至尊版移动平台,可以说是重新打造了整个芯片设计,提供了一个更加强大的高通AI引擎。全新高通AI引擎中最具亮点的部分就是第二代定制高通Oryon CPU,这是高通Oryon CPU首次登陆骁龙旗舰移动平台,它不仅可以提供更好的性能,也能够实现更快的系统应用和第三方应用启动速度,为时延敏感型推理任务提供支持,对于在CPU上进行处理的AI工作负载提供更好的推理加速。
在高通AI引擎这一异构计算系统里面,除了Oryon CPU之外,我们还有其他诸多的AI处理器单元,像大家熟悉的高通Hexagon NPU、Adreno GPU和传感器中枢,这些处理器都可以独立或者协同去完成复杂的AI推理任务。简单介绍一下骁龙8至尊版上搭载的最新高通Hexagon NPU,我们专门面向生成式AI进行了一系列优化。
前面演讲嘉宾提到了大模型的尺度定律(Scaling law)其实在慢慢的转向推理端,我非常认可这个观点,我们可以通过Scaling law持续在端侧去提升AI推理的性能。我们怎么做到的呢?这里给大家展示一下骁龙8至尊版NPU的硬件架构提升,具体包括以下几点:第一我们提供更大的张量加速器内核来应对算力要求比较高的场景,包括图片、视频生成场景、大视觉模型处理等等。第二,我们增加了更多的标量和向量加速器内核,来支持目前最主流的大语言模型和多模态模型,以及在影像等传统AI用例领域的多场景并发和多模型并发处理。
第三,大语言模型的运行非常依赖内存带宽,所以为了实现更好的性能表现,我们也在持续地提升处理器的内存吞吐量。前面也介绍到骁龙8至尊版实现了整个平台的全面重构,性能与前代平台第三代骁龙8相比有非常大的提升。在NPU性能方面,它跟前代平台相比有45%的提升。此外我们还将AI每瓦特性能提升45%,这对于AI模型的端侧化和嵌入式设备的产品开发落地来说意义重大。简单来说,就是在我们的手机或者是一些嵌入式设备的产品化过程中,功耗是影响产品能否成功落地的一个非常关键的因素。
回到大模型,大家都非常关心大模型的token生成速率,骁龙8至尊版实现了高达100%的终端侧token生成速率的提升。在多模态大模型方面,高通公司和智谱达成了深度合作。我们能够支持智谱GLM 4V端侧视觉大模型以超过70 tokens/秒的速度在终端侧高速运行。
前面我们介绍了骁龙8至尊版的性能表现,除了能够支持在端侧运行多模态大模型和其他的生成式AI用例,我们的终端侧AI还有非常多的优势。其中最重要的两点就是隐私性和个性化服务。手机上的传感器,包括摄像头、Wi-Fi、蓝牙或者麦克风,这些作为数据的生产者或者采集者,都在端侧。所以在离这些数据产生最近的地方完成数据推理,非常有利于保护用户的隐私,并基于这些具有隐私性的终端侧情境信息,为用户提供个性化服务。为了支持用户的个性化服务,我们还有一个专门的、独立的高通传感器中枢模块。骁龙8至尊版的高通传感器中枢与前代平台相比,性能提升高达60%。
下面给大家展示一个端到端的AI语音助手,从整个处理管线来讲,如果要完成这样一个端到端的AI助手用例,需要非常多的大模型模块,包括自动语音识别(ASR)模块、文本到语音转换(TTS)模块、大语言模型(LLM),甚至包括多模态模型等。高通强大的异构计算系统非常适合于支持这些不同的模型流畅、高效地跑在不同处理器单元上,共同打造一个丝滑的端到端AI语音助手。
最后,我想分享一下高通与智谱最近的合作进展。高通公司和智谱在很多产品赛道上都有非常密切的合作,包括汽车数字座舱、手机移动平台等等,我们双方正在共同携手,加速包括多模态模型在内的生成式AI在终端侧的部署。
责任编辑: 椰子