中科睿途CEO 胡敏:自动驾驶需要更多人文关怀,AI Agent是人工智能的未来
2023年已进入尾声,国内各大主流协会、媒体纷纷举办峰会来总结这一年的进步与收获,综合峰会主题内容来看,今年最火爆的话题和投资风口无疑是人工智能与大模型技术的业务结合和应用落地。目前该赛道的竞争已经进入白热化,各大厂商和院校纷纷入局,同时为了凸显各自团队大模型和算法的优势和能力,提升品牌影响力,大家都派出了实力干将参加国内的各类大模型和算法大赛。
除峰会外,各类大赛也走到了台前。2023年10月24 日,2023长三角(芜湖)人工智能视觉算法大赛正式启动,于12月11日举行颁奖典礼,大赛为专注于人工智能行业的开发者及行业用户提供展示算法实力的舞台。在本次赛事中,由中科睿途周嵘博士,胡敏,吴世伟,黄佩达和王磊组成的明星参赛团队凭借先进的视觉算法技术、前沿的自主研发实力和领先的技术创新能力在“2023长三角(芜湖)人工智能数字生态峰会暨2023长三角(芜湖)人工智能视觉算法大赛”中从上千组优秀团队中脱颖而出,斩获“基于车载视角下多路标牌检测识别算法”赛道冠军。这一殊荣不仅是对参赛团队的极大认可,更是中科睿途在人工智能领域中卓越创新的充分证明!
谈起智能出行,中科睿途CEO 胡敏有着自己独特的见解和广阔的战略视野,从大模型技术创新到车载智能硬件结合应用,从做好基本盘理念到落地执行,胡敏给大家勾勒出了一个健康的、安全的、智能化的智能出行未来画卷。
在极新与胡敏的交流中,他多次提到,在未来,智能出行将带给用户更好的乘车体验,包括智能健康监测、疲劳驾驶监测以及人文关怀等。
那么要如何实现以上几方面构想,胡敏给出了他的答案:
“做好基本盘,为用户赋能”

胡敏,中科睿途CEO(近20年技术研发和团队管理经验,先后就职于国内知名的人工智能、大数据和IT公司,担任研发总裁和公司CTO等职务。曾管理过百人研发团队,凭借出色战略规划和深厚的技术实力,带领公司团队研发过多款极具竞争力的大数据、知识图谱、AI算法平台以及IT类相关产品,在知识图谱和大数据领域拥有丰富的落地经验,拥有多个相关发明专利。)
以下为极新创始人姜稳与中科睿途CEO胡敏的对话实录,经极新整理。
01
大语言模型的出现重新定义自动驾驶
“通过大语言模型赋予了车辆大脑,可以进行多模态信息识别和逻辑推理”
姜稳:创办中科睿途之前,您在做什么?
胡敏:上一家公司是国内知名的AI芯片企业担任行业技术总监,之前的经历主要是IT类产品规划与研发,服务于大型的央企和国企。
姜稳:您是技术创业者吗?
胡敏:我一直扎根在技术上,这么多年一直在做研发相关工作,现在也还会看Paper,写代码。
姜稳:中科睿途这个名字怎么来的?
胡敏:中科睿途的资方来自于出行行业,“睿”是聪明的意思,“途”是道路的意思,所以就把这两个字合在一起,寓意是让 AI 赋能你的每一段旅程。
我们的 slogan 是“睿致千里,途享科技”。不管你走了多远的路,不论是真实的旅程还是人生的旅程,我们让AI去赋能。
姜稳:如果将自动驾驶算作一部分辅助决策的功能,那怎么看待 AI 在驾驶方向上发挥的作用?如果分级的话,有没有定级别?从您个人的角度,您怎么分类?
胡敏:我个人认为级别不会发生本质上的变化。关于AI的发展,我们可以回顾一下,
如果没有大语言模型,我们预测AI会像前三次的浪潮一样逐渐沉寂,机器视觉经过多年的发展,已经到了一个瓶颈期,大家找不到新的突破点。在视觉领域,除了进行人脸识别和目标检测等模型应用外,似乎没有其他的增长点。然而,大语言模型的出现带来了一个全新的方向,将机器视觉转向了对话式的交互模式,让人和机器的互动出现了一种新模式。
大语言模型不仅仅是用来生成图片、视频或文本,它带给我们的是从感知到认知的转变。例如,我们给大语言模型一张图片,它不仅仅是识别图片上的目标,还能够理解图片想表达的内容,这带给我们就有很大的想象空间。
在自动驾驶领域,大语言模型的出现让人们重新定义了自动驾驶。它赋予了车辆一个大脑,将看到的东西转化为逻辑推理,将多模态的信息融合、推理、决策,这对于自动驾驶来讲会是新的突破,当然我个人不是这方面的专家,这只是我个人的浅显理解。
姜稳:所以多模态是大模型的未来。
胡敏:我的理解是这样,多模态一定是大模型的未来的形态。
所有应用都值得用大模型重做一遍,自动驾驶也不例外,随着大模型技术的发展,大模型会整合越来越多的工具和信息,多模态内容的理解和生成势必成为趋势,Google发布的Gemini就是一个典型的例子。
因此,在自动驾驶方面,大语言模型可以实现多种信号源的融合,从而更好地理解和处理复杂的情况。这也是为什么大语言模型的出现会重新定义自动驾驶。
姜稳:大模型的出现让辅助驾驶产生了增长点,网约车场景会发生什么样的变化?
胡敏:网约车一定是自动驾驶方式的,未来肯定没有司机。根据我国公开的一些信息显示,中国的自动驾驶全面展开预计将在2030年后实现。
从技术上来说,这并不是太大的问题。在亦庄打车,您可能会使用萝卜快跑等自动驾驶服务。亦庄的所有道路都已改造,因为自动驾驶需要车路协同,信号灯也需要改造,再加上车辆本身,这样三位一体才能实现自动驾驶。大语言模型也许能够加速这个过程,也许它不需要完全按照现有的自动驾驶标准来改造道路,就能够达到已有的自动驾驶的水平。
车载算力在提升,高通的8系列芯片和国内的其他芯片厂商使端侧的算力提升迅速,在车内可以形成一个小的算力中心,这也有助于大模型技术与自动驾驶的融合与落地。以前的芯片性能跟不上,但现在的芯片性能没有问题。很多车有12路信号,算力也能够处理得过来,大语言模型来了以后意味着能够处理更多元的信号,并将不同元的信号扮演不同的角色串到一起,形成认知理解的结果,加速自动驾驶的发展。
姜稳:GPT 叠加机器视觉之后,已经能够走入到生活的方方面面了。如果今年没有大模型技术,自动驾驶的发展会是怎样的?
胡敏:发展会很缓慢,不论是特斯拉的视觉方案,还是国内的雷达方案,其实大家也都还在探索,从外面看起来,没有突破性进展。在中国只有几个地方开放了自动驾驶试点园区,亦庄、上海自贸区和长沙等等。此外,还有一些小的示范点逐渐开放,但因为都是封闭的道路,所以规模相对较小。
姜稳:提高AI 生成的内容的精度,根据您的理解,能否通过目前车上的算力实现?
胡敏:目前来看车载算力达不到,所以未来一定是端云结合。随着网络的带宽越来越大,手机也能跑大模型,我觉得这才是长期趋势,算网融合。
姜稳:今年自动驾驶的发展,您觉得有哪些大的里程碑,或是大的节点性事件?在自动驾驶场景里,中科睿途在做哪些工作?
胡敏:在自动驾驶领域,国家在逐步立法和订规范,今年国家出台了《制定面向2025年和2030年自动驾驶标准体系》等,这都会加速自动驾驶的落地,技术上就更多了,华为等企业下场帮助传统的车企打造智能化汽车等。中科睿途现在还没有涉足自动驾驶,我们在通过AI Agent实现辅助驾驶和智能座舱,中科睿途会发布车载智能仪,通过多模态互动的人机交互方式对司机驾驶行为分析、提醒以及辅助司机驾驶,今年我们和中国科学院半导体所联合也获得了北京市自然科学基金-小米创新联合基金项目的支持,主张通过多模态感知和融合技术,将车辆行驶数据、车辆环境数据以及驾驶员生理信号数据等多维信息融合在一起,打造更安全、更健康的智能座舱环境。
姜稳:为什么中科睿途能够实现多模态技术与智能网联汽车结合?
胡敏:不是只有中科睿途才能做,很多厂家都可以尝试,中科睿途只是在其中一个点上去探索。首先,RGB-D的摄像头目前比较贵,因此在很多车企中还没有广泛应用。技术上,中科睿途和中国科学院半导体所成立了AI智慧出行实验室,实验室的多位博士的研究方向就是点云结合和多模态技术研究,所以技术上落地具有可行性,另外前面也介绍到中科睿途脱胎于出行行业,在出行行业本身就有大量的需求和场景。我们通过产学研用合作,将这些技术与我们的智能硬件设备融合在一起,会大大提升我们在资产管理以及司机行为分析方面的效率,降低资产管理的风险,同时也助力公共交通工具的安全出行。
02
Agent是未来
“Agent是未来,它可以化身为多面手,去帮助用户解决不同领域专业的问题”
姜稳:咱们去年成立, 主要做的是?
胡敏:主要在大模型领域深耕企业级的AI Agent。
姜稳:中科睿途是从 硬件开始做的还是从软件开始的?
胡敏:中科睿途是一家人工智能软件公司,我们也会结合我们的软件,推出一些智能硬件设备,软硬一体化。
姜稳:后面有可能做硬件吗?
胡敏:我们目前已经有几款智能硬件产品在销售了,包括车载定位器和车载智能屏,后续我们还会有新的辅助驾驶相关硬件产品陆续会发布出来,像车载智能仪等。
姜稳:中科睿途的AI Agent的应用方向是哪些?
胡敏:中科睿途的RatuBrain是希望打造一个面向企业级的人工智能体工具,能够在离线的环境中链接更多的企业数据和企业级工具,扮演企业员工助手,帮助员工提高工作效率。就像在企业中有宣传岗、财务岗、营销岗,每个岗位都有不同的职责,因此,对于每个岗位,我们希望大语言模型能够提供不同的技能支持,担任每一个人的个人助手。
姜稳:这一年大家都在重塑模型,在自动驾驶领域很少发布agent。
胡敏:估计还需要时间,明年三四月份可能会有一些成果,从最近的招聘数据来看,各大主机厂都在招募大模型相关的人才。我们主要专注于DMS和ADAS,与自动驾驶还是有所区别。另一个方向是利用多模态技术在车内智能座舱领域进行快速落地,以促进未来打造交互性更好的智能座舱和服务于司机的出行助手、服务于座舱域的陪伴助手。这是主要研究方向,我们专注于智能座舱的开发,而不是自动驾驶。
姜稳:有 agent 和无 agent ,差别在哪?
胡敏:和传统的AI能力对比起来,深度学习需要依赖大量的标注工作,涉及到流程类的也会依赖第三方的工作,AI Agent带来的是一种全新的体验,链接更多的工具后,通过交互式问答进行自主学习,能够自动调用合适的工具分解任务、完成任务,就像流程会自动生成一样。
姜稳:2024 年,如果在智能座舱上装载agent,会最先提供给哪些区域?
胡敏:中科睿途目前在20多个城市10000+台网约车上都有终端设备。2024年中科睿途会从两个方向赋能,一个是通过营销助手能够帮助企业实现文案生成、内容制作、乘客意见反馈、模型优化完整的内容互动闭环;另一方面是关注网约车司机的,网约车司机长期久坐,容易积累成职业病,他们更需要关怀,我们通过出行助手通过语音交互等多种方式了解司机需求,洞察司机的异常情绪和健康状态,能够及时提醒司机,在得到许可的情况下与相关管理部门联动,关注司机健康和驾驶安全。当然这是服务于车内的场景探索,未来我们也会探索AI Agent在教育、安全管理等领域的应用。
中科睿途目前的算力需求主要是云端推理,不论是文生图还是人机对话,对大模型推理算力要求都很高。不同的模型训练要求不一样,我们没有做大模型的基础训练工作,仅仅是微调,但也需要A800集群来满足需求。
姜稳:其实并不只是卡的问题,也有一些网络的问题。
胡敏:我曾在AI芯片公司工作,在云和大数据领域也工作过很长时间,对于这个问题有些了解,其实有多种解决手段,并不一定需要调整模型,用基础架构的方式也能解决。
随着大模型对算力的要求越来越高,带宽已经成为了瓶颈。可以看一下美国,首先限制的是卡与卡之间的带宽。当带宽不足时,大模型训练会收到限制。
技术原理是通过NVLINK里的高带宽,使多张卡表现得像一张卡。但这项技术目前无法突破。因此英伟达的A100和A800限制了带宽,虽然算力没有明显降低,但每张卡的极限值已经降低。这意味着即使使用多张卡的集群,线性度也会直线下降。
03
从成果侧看执行端
“做好基本盘,为用户赋能”
姜稳:站在现在看三年后,车内的座驾体验上最该做的准备是什么?
胡敏:在未来的三年后,我个人觉得自动驾驶会和车载娱乐独立开,相信三年后自动驾驶的成熟度会比当下要高很多,我们需要关注的是自动驾驶来临后,我们在车内需要做什么?所以我个人觉得多样化的座舱交互方式、座舱域的内容生态、多场景化的座舱环境都是可以重点关注的。
姜稳:如果需要快速实现盈利,您怎么看待投资市场的开展?对您有何帮助?
胡敏:现在的投资环境确实不容乐观。中科睿途今年因为有股东方的项目支持,所以还在稳步发展总。最近接触了一些资方,大家还是有信心继续往前做的,尤其是在寒冬的时候,抱团取暖共同发展才能看到曙光。
姜稳:怎么看咱们的对标情况?
胡敏:有做投资的朋友推荐关注中科创达和德赛西威。
但其实有些不同,他们是先扎根行业再加AI技术,属于行业+AI的范畴,中科睿途是先做AI技术,然后应用到出行行业,再逐步往其他行业发展,比如教育、安防等,属于AI + 行业。
姜稳:如果您变成投资人帮中科睿途做战略投资,或投上下游和生态企业,您会从那个点切入?
胡敏:从产业角度来看,首先关注的是不同行业内的产品。往上游看,主要是芯片公司。因为芯片公司代表了算力,无论是端侧还是云侧的算力,这都是未来的方向。
另外要整合资源,因为算力、云等元素都可以看作是未来发展所需要的资源。未来的计算生态一定会将算力和网络融合在一起的。
从行业角度来看,上游还有一些行业性的公司,比如做教育行业,类似DB这样的国外平台,或是默课等有数据源的平台,都是中科睿途的上游,中科睿途在中间用AI串联数据,跑在创意平台之上,赋能某一个行业。
姜稳:目前新能源车处于下行状态,您怎么看新能源的未来走势?未来的新能源是电能还是氢能?
胡敏:要探讨中国的市场,首先需要提及90年代中国发布的关于大力发展电动汽车的文件。当时,这一决策是基于中国的发动机技术短期内无法与美国和欧洲相媲美的现实。因此,中国选择通过电动汽车这一路径进行弯道超车。随着特斯拉的崛起,电动汽车行业水平达到了新的高度。
然而,电动汽车的核心问题是电能来源。在中国市场,80%的电能来自火力发电,这不得不考虑环境污染的问题,特别是从双碳角度,尽管使用了优质煤炭,但火力发电仍然是对环境造成污染的主要因素之一。
此外,要关注氢能的发展。氢能汽车所提出的水分解产生氢气和氧气作为能源的理念,实际上是使能源的产生更清洁,所以欧洲和日本也瞄准了氢能方向,我个人也更看好氢能的未来。
姜稳:您对 2024 年的中科睿途的期许是?
胡敏:2024年首先关注出行行业,这是基本盘。目标是把基本盘做好,并在行业里推出一些创新型、实用型产品,以促进公司稳定发展。就像刚才提到的健康、安全的智能座舱领域,要保证司机能够获得更好的体验,让网约车更加安全。这是中科睿途的核心目标之一。
在公安、教育等其他行业,我希望能够有3到4个典型客户使用中科睿途的产品,为部分用户赋能,切实解决他们的实际问题,同时也会探索不同行业多模态大模型技术应用结合模式。目前我们已经有一些潜在的客户,只需要让他们使用并感受到AI对行业的赋能即可。
责任编辑: 云舒