【编者按】 “星汉辉煌光耀,若出其里。”人工智能迈入闪灼时候。 4月29日,习近平总书记来到位于徐汇区的上海“模速空间”大模子创新生态社区调研。他指出,人工智能技能加快迭代,正迎来发作式发展,上海要总结好以大模子财产生态体系孵化人工智能财产等乐成履历,加大探索力度,力图在人工智能发展和管理各方面走在前线,产生树模效应。 现在,徐汇区已形成“北斗列阵”+“群星闪灼”的AI生态结构。此中,“北斗七星”由稀宇科技、商汤科技、阶跃星辰、无问芯穹、星纪魅族、特赞科技和斑马智行7家标杆企业构成。 这些企业何以成为“北斗”?它们在人工智能范畴有哪些探索和前瞻性的思索?汹涌消息推出“北斗专访”系列报道,通过深度对话,解码标杆企业的AI星辰版图。 克日,商汤又一次引起外界关注。在2025年天下人工智能大会(WAIC)上,商汤不但发布了新模子,还开发了新赛道——具身智能,成为其在AI前沿范畴的最新结构。 商汤科技团结首创人、实行董事、大装置奇迹群总裁杨帆在担当汹涌消息专访时表现,无论是商汤2025年完成的“1+X”构造架构调解,照旧近来在具身智能、稳固币等赛道的结构,背后的逻辑泉源于对AI财产两个发展趋势的观察和回应: 其一,AI正朝着更大规模、更强泛化本领的方向演进,遵照标准定律(Scaling Law),模子本领连续加强,这是技能层面的恒久主线。 其二,AI正加快向细分行业渗出、打穿,实现端到端的深度整合与应用落地。AI作为一个通用工具,用户恒久来看照旧为代价买单的,AI真正要创造代价,必须跟卑鄙场景形成闭环和产物。 ![]() 祝碧晨 计划 杨帆说,中国人工智能取得了很大进步,但仍面对贸易逻辑、性价比逻辑上的挑衅,AI企业必要连续性的红利本领。他以为,一方面要寻求在AI焦点技能上的连续突破,另一方面也要寻求在差别细分范畴的落地,两者的关系犹如大树的树干和树枝。 这两年,固然AI大模子迭代速率快,但和人们此前想象的并不一样。“GPT4刚出来时,许多人为之赞叹,以为AGI(通用人工智能)很将近实现了。但现实环境不是如许。”杨帆说,人们看到的,是多模态大模子、AI Agent(智能体)、具身智能以及天下模子等相继面世。 “80后”的杨帆,本硕结业于清华大学电子工程系,主导建立了商汤超大型人工智能盘算中央(AIDC)。在他办公室的书柜上,摆放着家人的照片、孩子的手办和玩偶。在同事眼里,他是一位性格亲和、非常健谈的人。他善于让对谈者放松,也会不动声色地抛出锋利的观点。 “我以为人形呆板人肯定会进入千家万户,但它如今仍面对在真实天下网络数据的困难。”杨帆说,固然AI在数字天下已取得很大突破,但在物理天下另有很长的路要走。感知、导航和交互,是具身智能的三个焦点本领,人形呆板人的演进终极要让“身材”和“大脑”实现闭环。 杨帆信赖,人工智能底子办法化是一定趋势。已往三次工业革命,使蒸汽机、铁路、电网、互联网等成为底子办法。现现在在AI期间,数据、算力等将会成为新一代底子办法的紧张构成。任何技能进步带来的风险都始终存在,但与其担心风险,他以为不如思索能做什么,好比为AI界说规则、文化和代价观。 ![]() 商汤科技大楼,位于上海徐汇区。 【对话杨帆】 汹涌消息:现在各行各业都评论AI大模子,感叹其发展速率何其迅猛。作为行内人,你怎么判定当前AI财产的趋势? 杨帆:这几年AI的发展有两个明显趋势,一方面是模子本领连续加强,具备更强的泛化与通用智能,AI在技能上会连续寻求规模化,这是一个大趋势。另一方面,AI正加快向细分行业渗出,实现端到端的深度整合与应用落地,包罗AI Agent(智能体)也在加速鼓起。这背后的逻辑是,AI作为一个通用工具,恒久来看用户照旧为代价买单的,AI真正要创造代价,就要能跟卑鄙场景形成闭环、形成产物。 这两年AI大模子发展非常快,但有一点必要留意,它的快和两年前人们想象的快是不一样的。GPT4刚出来时,许多人为之赞叹,以为立刻AGI(通用人工智能)很将近实现了。但现实环境却不是如许,昨们看到的是多模态大模子、具身智能、AI Agent以及天下模子等,这些出来了。 汹涌消息:从大语言模子,到多模态大模子、具身智能,再到一些细分范畴的垂类模子,大模子的概念好像越来越宽泛了? 杨帆:究竟上,国内语言体系和外洋略有差别。2022年OpenAI的GPT3.5出来,它本质上是LLM(Large Language Model),即大语言模子。本日昨们说的多模态大模子,智能体,大概天下模子,各人都叫大模子的方向,但实在和LLM是差别的体系。都叫大模子也不能说错,由于这是大模子迭代发展的恒久趋势。别的,多模态信息感知和处置惩罚的本领,是AGI的焦点要求,也是从语言模子走向AGI的必由之路。从多模态感知、推理,再到交互,当前多模态智能的演进,正在进一步驱动AI发展。 汹涌消息:商汤是做视觉发迹,在盘算机视觉范畴积聚深厚,这会让你们投身多模态大模子范畴有不一样的视角吗?本年天下人工智能大会上,商汤在大模子中引入形象头脑,成为国内首个接纳图文交织头脑的贸易级大模子,背后有什么技能思量? 杨帆:语言和视觉是典范的两种模态。语言、笔墨是对天然信息高度压缩过的一种编码,它的利益是传输服从高,有用信息量大,但同时也会造成原始信息丧失。而视频则是另一种模式,它对物理天下有更丰富和完备的出现,但缺点在于信息的信噪比低,有用信息量小。 人类的一样平常运动,自然涉及对文本、图像、视频、网页等多模态信息的处置惩罚。如今许多人做多模态模子,是把图像、视频、语音等其他模态信息翻译成文本,再灌入模子去思索、处置惩罚,然后再将推理后的信息翻译天生出来,转为图像、视频和语音,缘故原由是大语言模子已经成熟,这么做是最简朴的。 但在人类的思索中,形象头脑和逻辑头脑划一紧张。以是昨们从第一天做多模态模子,就不盼望把信息都翻译成文本再推理,昨们把信息抽象成一个中心表达,用这个中心态去做推理。要知道信息的图形化表达比纯文本头脑链更难,固然难,但这是昨们在做的事。 汹涌消息:近来商汤新开了一个赛道——具身智能。这两年人形呆板人很火热,大厂、AI企业纷纷了局,但具身智能“大脑”的研发好像还是关键。可否谈谈对具身智能赛道的想法?你以为将来人形呆板人会进入千家万户吗? 杨帆:昨们做具身智能,是基于在视觉感知、大装置、大模子等多种技能的恒久积聚,背后的焦点引擎是天下模子,它能为呆板人、智能装备赋予感知、视觉导航及多模态交互本领。感知、导航和交互,是具身智能的三大焦点本领。 平凡人大概对具身智能还不太相识。举个例子,多年前AlphaGo已经克服了人类围棋冠军,如今大语言模子也能写出美丽的文章。但是,洗碗叠被、拿件东西这类对人很简朴的事变,呆板人却做欠好。为什么?由于呆板人可以在数字天下做许多事变,但在物理天下它的本领仍旧有限。具身智能要让呆板人的多模态数据同步,感知、意图和举措同等,让身材和大脑实现闭环。这是很难的,你让呆板人回办公室取回忘记的物品,它不但要辨认、拿取物品,还要应对复杂的外界情况,好比与生疏人交换、防范不测等。 我以为将来人形呆板人肯定会进入千家万户。为什么打造人形呆板人?由于已往几千年来,人类已经按照本身的体型、交互方式等,打造了一个物理天下,包罗楼梯、电梯、桌椅、锅碗瓢盆等全部东西。 一个呆板人假如只干特定使命,好比做饭或送货,它不必要肯定是人形的,好比旅店的呆板人已经很遍及,并不是人形的。但是当这个呆板人越来越通用时,具备了通勤奋能,那么人形呆板人就是最经济、最方便的形态,这让它能更好地融入物理天下。 汹涌消息:智能汽车常被视为初代版的呆板人,那人形呆板人的进步也会像辅助驾驶那么快吗? 杨帆:人形呆板人面对的一个挑衅,是很难在真实天下网络数据,而它又必要海量数据反馈和练习。对智能汽车来说,辅助驾驶技能进步很快,由于你可以安排几百辆汽车天天上路测试,通过摄像头、感应器网络真实天下的数据,连续练习和美满它的智能。但你很难安排几百个呆板人上街网络数据。纵然没有AI,汽车还是在路上跑,但没有AI,人形呆板人就不会上街。人形呆板人是一个原生的智能装备,现在它还必要更多真实天下的练习和反馈才气连续进步。这也是昨们如今非常器重天下模子的缘故原由,对实际天下情况举行仿真练习。 ![]() 商汤科技大楼内景。 汹涌消息:在昨们的采访中,辅助驾驶、AI眼镜、智能座舱等企业都很器重AI在端侧的摆设,端侧摆设为什么很紧张? 杨帆:AI在端侧的摆设,对许多详细场景下的应用是很紧张的。在端侧摆设AI,买通端到端的本领,意味着数据收罗、感知、推理、决议、反馈都能在终端装备上完成,它可以或许激活一些大场景,来形成对自身贸易化的反哺。你会发现有许多场景确实对网络的耽误很敏感。 同时,它也有利于用户隐私安全和数据掩护。随着数据的资产化,个人数据大概成为个人的紧张资产。而且在AI期间,数据会成为焦点生产资料,紧张性犹如工业期间的能源、农业期间的耕地。因此,在当地掩护用户数据很紧张。 汹涌消息:你说过,随着财产格局的演变,人工智能底子办法化是一定趋势。可否表明一下? 杨帆:AI作为一个先辈生产力,肯定会渗出进各行业,这是工业革命的内涵逻辑。已往三次工业革命,电力、信息技能等都已渗出到了社会各个范畴。当一个技能可以或许规模化地、广泛地改变财产布局以致社会布局的时间,低落这个技能的门槛和本钱也会成为一定,它会具有规模效应。 第一次工业革命,让蒸汽机、铁路成为底子办法。第二次工业革命,让发电厂、电网成为底子办法。第三次工业革命,让信息技能、互联网成为底子办法。现在,AI期间也会有新的底子办法,包罗算力、数据等等,这个趋势很清楚。 汹涌消息:近期外界关注商汤构造架构的Re-cofound(二次团结创业),您也提到“1+X”战略,能不能先容一下最新希望? 杨帆:“1+X”中的“1”是指从包罗AI Infra(底子办法)到大模子的迭代,再到围绕多模态大模子技能的两个应用方向,一个是生产力的工具,别的一个就是下一代的多模态交互。“1”就像大树的主干,它自己也会形成比力大的贸易时机,但更多照旧连续推动整个AI技能的迭代和进步。 同时,人工智能还要进入到详细的行业,去办理详细题目,在某个行业大概跨行业的场景,并在每个分支形成独立的贸易模式,这就是“X”。昨们盼望让“1”和“X”更好地联合,在贸易化探索中有更机动、更开放、更快速相应的本领。 基于这个战略,昨们有几个差别方式:第一是把一些业务分拆,好比医疗、零售等都有典范的垂域,分拆后商汤占肯定股份比例,给他们提供技能本领和代价。第二类是孵化,好比近来在搞的具身智能。第三类是对财产上卑鄙和新行业的投资。 汹涌消息:你会担心AI代替人类吗?怎样对待AI的风险? 杨帆:不担心。任何技能进步带来的风险都始终存在,与其担心,不如从实际出发,判定昨们能做什么故意义的事变。好比在AI安全伦理上昨们要做许多事变,要和国际社会、国际构造开展更多互助。随着越来越多的呆板人出现,可以想象它们与物理天下、其他呆板人和人之间产生交互,在交互过程中也在不停发展本身的智能。昨们必要资助它界说规则,除了物理规则,另有文化、代价观和道德准则等,终极产生人类所必要的智能。 |