时间:2025-07-29 14:02 作者:姚霁珊
大模型卷不动了吗?商汤给出了新答案,模型太大
作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com
在今年世界人工智能大会上,一个颇为引人注目的场景,主角是一个人形机器人。它独自站在台上,自主讲解着一份关于唐代荔枝运输史的PPT。
根据商汤科技董事长兼CEO徐立在“大爱无疆·模塑未来”大模型论坛上的介绍,这个机器人不仅语言风趣,能自行控制PPT翻页,甚至可以在回答完台下观众的提问后,无缝衔接回自己原来的讲稿。这种流畅度,已经超出了简单程序控制的范畴,更像一个具备了初步理解和记忆能力的讲解员。
这看似轻松的演示,背后恰恰是当前AI领域的核心难题,如何让视觉理解、语言生成、情境记忆、人机交互等多种能力无缝协作。正是这种对综合能力的更高要求,促使行业开始重新审视过去几年的主流发展路径。
过去几年,行业一度信奉“大力出奇迹”的路径。但在2025年的今天,这条路正面临清晰的边界。正如行业普遍观察到的,互联网高质量文本数据将在未来几年内耗尽,其增速已远落后于算力增长;同时,真实环境下的主动交互数据采集成本极高,成为了具身智能发展的核心瓶颈。单纯“堆料”的模式,显然已不足以支撑AI的持续进化。
这正是商汤这家公司的特殊之处,作为一家在计算机视觉领域深耕了十年的公司,商汤的基因决定了它对世界的理解始于图像和视频。在生成式AI时代,商汤并未将自己局限在纯语言模型的竞赛中,而是选择了一条更契合自身历史基因的道路。根据其领导层在多个场合的阐述,商汤当下的核心战略,是利用其深厚的视觉理解能力,将公司定位在多模态基础模型及其在具身智能等领域的应用之上。
1
多模态的新故事:当行业觉得“卷不动”时
多模态这个概念在行业里已被讨论多年,各家都在布局,以至于很多人觉得这已是一个重要但缺乏新突破的领域。然而,商汤提出了一个更具挑战性的想法:要实现更高阶的智能,AI的多模态能力需要再往前走一步,从信息的“融合理解”深入到“动态思考”的核心。
在与我们的交流中,商汤科技联合创始人、执行董事、首席科学家林达华阐述了这意味着什么。他认为,AI的思考过程不应是纯文本的,而是应该能不断生成新的图像进行推演,这便是“图文交错的思维链”。
要走通这条窄门,挑战巨大。首先是数据,能体现人类思考过程的数据天然是稀缺的。商汤的解法之一,是以少量专家数据为种子,用AI为AI造出大量包含推理过程的合成数据,以提升训练数据的“思维密度”。
其次是成本。为了在控制成本的同时实现复杂推理,商汤在这次发布的日日新6.5多模态大模型上,对架构进行了创新。其模型体系采用了超过6000亿参数的混合专家(MoE)架构。林达华在采访中提到,他们采用了一种“更扁平的视觉编码器搭配更纵深的语言模型中枢”的新设计,让模型“视觉上敏捷,思考上有深度”。根据公布的数据,新架构使得性价比提升了三倍,推理成本只有原来的30%。一个150亿参数的轻量模型,性能已能在多数维度上达到过去6000亿参数模型的95%。
1
宽路:从Agent到物理伙伴
一个更强大、更高效的模型,最终要通过Agent来体现价值。商汤的Agent家族小浣熊,其核心应用之一便是处理复杂的数据分析任务。
现实世界中的Excel表格,往往充满了合并单元格、多个子表和混杂的图文,是典型的多模态难题。在一个头部客户的实际测试中,面对这类任务,小浣熊的表现比当时更新的DeepSeek模型,依然有十分左右的优势。这种在关键应用上的性能差异,直接体现了其底层模型在强推理能力上的不同。
小浣熊领先的复杂数据分析能力
商汤对Agent的构想,并不局限于小浣熊这样的数字Agent形态。在今年的WAIC展区,商汤展示了一个由众多硬件伙伴构成的应用生态,包括元萝卜下棋机器人、小米AI眼镜,以及来自钛虎、傅利叶等公司的人形机器人。
当然,打造一个开放的硬件生态也并非易事。相比苹果或特斯拉那种软硬一体、高度垂直整合的模式,平台赋能的路线需要解决生态伙伴技术水平参差不齐、最终用户体验难以完全统一等问题。
商汤在其中扮演的是核心技术提供者的角色。林达华在采访中解释了硬件厂商选择合作的原因:大部分硬件厂商,特别是智能玩具等消费电子公司,对成本高度敏感,因此并不具备自研顶尖交互模型的能力。商汤提供了一个它们亟需的、开箱即用的智能大脑。至此,商汤的Agent战略版图变得清晰:以小浣熊这样的数字Agent深入企业的生产流程,再以赋能硬件的物理形态进入人们的日常生活。
1
一场需要“沿途下蛋”的马拉松
从Agent到机器人,再到让它们与物理世界交互,商汤的布局也自然地延展到了具身智能这一前沿领域。这次WAIC上,商汤正式发布了“悟能”具身智能平台 。该平台以商汤的具身世界模型为核心,旨在为机器人等终端提供强大的感知、导航和交互能力 。徐立展示的“在真实世界开极品飞车”的Demo,就展示了其“开悟”世界模型在生成高保真、可交互场景方面的能力 。
对未来的想象和布局上,也让我们看到了AI巨头们理解上的差异。谷歌DeepMind的领导者德米斯·哈萨比斯在近期一次广为流传的播客访谈中构想,AGI的终极体现是破解聚变能源、模拟完整细胞,解决人类最根本的科学挑战。
在林达华看来,真正意义上的Intelligence——智能的定义,就是一个智能体或者“人”它跟这个世界自主交互的能力。而这里面包括很多不同的维度,比如感知、推理、决策等等。商汤的路径,是先让AI成为能读懂财报、看懂图纸、帮你规划旅行的得力助手。一个看似仰望星空,一个似乎脚踏实地。但后者的路径,恰恰是离当前企业和用户的真实痛点最近,也是最快能创造商业价值的领域。
在中长期战略上,商汤的思考倾向于在把基础模型做好的同时,打造很多个能深入场景变革生产力、重塑工作范式的专业Agent,互相形成组合,最终实现可持续的商业闭环,而非一个什么都能干的“超级智能体”。因为后者的成本在真实商业场景中可能难以承受 。另一个,就是与合作伙伴一起推动像具身智能的发展。
这种选择的背后,是商汤对AGI发展路径的核心判断,它不是一场百米冲刺,而是需要付出很长时间和努力的长跑。
在这场艰苦的竞赛中,一时的技术突破固然重要,但能否跑到最后,更在于能否建立一个可持续的商业闭环 。商汤的策略,被林达华在采访中概括为“沿途下蛋” 。即在追求AGI这个远大目标的过程中,必须在沿途不断创造出能自我造血的商业价值。无论是小浣熊,还是硬件生态,都是商汤在长跑路上“生下的蛋” 。它们不仅能为研发提供资金反哺,更能让技术在真实应用中获得最宝贵的反馈。
这种务实的哲学,并非凭空而来,而是源于商汤过去十年在AI浪潮起伏中的经验沉淀。一家经历过技术hype与现实挑战的公司,对什么是真正有价值的东西,会形成自己的判断。林达华在采访结尾的一句话,或许能作为注脚:“AI行业之所以曾出现过冬天,就是因为技术无法落地,人们用不上,它就失去了价值” 。
从WAIC上那个会讲PPT的机器人开始,我们所看到的,是一个多层战略的物理体现,一条对多模态认知的技术窄路,一个软硬一体的商业宽路,以及一个为跑赢AGI马拉松而设计的、可持续的发展哲学。
点个爱心,再走 吧
2、肉制品龙头一年要开100家线下熟食店,赢面大不大?加快推进餐饮业务布局,能否探索出新的增长通路?