国产AI算力的“阶跃”时刻
(文/观察者网 张广凯)
沐曦陈维良、天数智芯盖鲁江、燧原赵立东、壁仞张文,四家国产算力芯片领军企业的创始人同台对话,即使不是第一次,也是非常罕见的一幕。
7月25日,作为今年世界人工智能大会的一部分,阶跃星辰在上海发布了新一代SOTA级的多模态推理大模型Step 3。
作为著名的“多模态卷王”,如果说Step 3本身的模型能力已经不会太让人意外,那么这次发布会上更大的惊喜,来自于其对国产芯片的强大适配能力——据介绍,Step 3在国产芯片上的推理效率最高可达DeepSeek-R1的300%。
同日,阶跃星辰联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”,首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。
阶跃星辰的名字来自数学中的“阶跃函数”,这个函数常用来描述从0到1的突然跳变。当英伟达H20都面临“断供”风险,国产算力今年已经成为大模型企业的必选项。这个趋势当然不仅仅归功于阶跃星辰,但国产模芯生态确如“阶跃函数”一样正在快速跃迁。
当模型和芯片变成一个系统
自从今年初DeepSeek爆火出圈之后,人们已经习惯了用“DeepSeek时刻”来形容中国大模型产业的进步。但是属于DeepSeek自己的下一个“DeepSeek时刻”,却迟迟没有到来。
早在2月份,就有消息称DeepSeek计划于5月发布下一代推理模型R2,甚至有可能提前。但截至目前,R2仍然未能亮相。知名科技媒体The Information曾指出,英伟达H20芯片此前的禁售风波,可能是DeepSeek计划跳票的重要原因。
如今英伟达显卡屡屡出现断供风险,影响的不是仅仅DeepSeek自身的模型训练,也让下游那些并非财大气粗的用户在部署时遇到麻烦。随着华为昇腾等国产芯片的性价比逐步超越H20,越来越多的用户和算力厂商开始转向国产芯片。
在Step 3的发布会上,阶跃星辰创始人、CEO姜大昕展示了两组数据:
在国产芯片上,Step 3的推理效率最高可达DeepSeek-R1的300%;而即使在基于 NVIDIA Hopper 架构的芯片进行分布式推理时,实测Step 3相较于 DeepSeek-R1的吞吐量提升了超过70%。
“过去,产业把开发顺序搞反了。”阶跃星辰联合创始人、副总裁朱亦博对观察者网解释说,一款芯片的开发周期需要两年以上,而如今模型迭代的速度只有半年到一年,如果让芯片厂商去适配模型,必然是低效的,可能等到适配做好了,模型早就迭代了。
而阶跃星辰选择了在模型开发阶段,就主动去服务于国产芯片的特性。
朱亦博举例说,目前国产芯片的制程工艺、HBM(高带宽内存)等性能还相对落后,导致在算法设计上需要去做一些调整。
下面这张图更加直观地展示了阶跃星辰这种思维方式的成果:在昇腾910B上,Step 3的解码效率甚至超过了华为自家的盘古 Pro MoE模型,这还是在盘古 Pro MoE实际激活参数不到Step 3一半的情况下。
如今,阶跃星辰与诸多硬件厂商成立“模芯联盟”,意味着过去技术层面的系统思维,有望走向更深度的战略协同层面。
这势必会给阶跃星辰的未来模型研发带来独特优势,而与此同时,姜大昕也向观察者网表示,欢迎更多国内大模型企业加入联盟。
下一个圣杯:多模态
“AI六小龙”公司此前都没有明确公布过自己的经营状况,可以作为对比的是,有媒体报道智谱2024年的收入约2-3亿元,而亏损可能达到20亿元。
这意味着,阶跃星辰除了与上游硬件厂商的结合,在下游用户的结合上也有独到之处。
其最核心的秘诀自然还是多模态。
过去一年中,阶跃星辰已经发布了十余款多模态模型,包括Step系列的基础模型,以及语音、视觉理解、图像编辑、图像和视频生成、音乐等诸多垂直模型。本次WAIC期间,阶跃亦升级了多模态模型矩阵,包括阶跃首个多模理解生成一体化模型Step 3o Vision,第二代端到端语音大模型Step-Audio 2。
业内普遍认为,相比于语言模型的不断刷榜,多模态正在成为当下大模型和Agent产品落地需求最大和最有利可图的赛道。这让“六小龙”中一直较为低调的阶跃星辰,悄然在商业上开始爆发。
阶跃星辰副总裁李璟对观察者网直言,“多模态模型的优势往往不体现在榜单上,而是体现在客户的实际测试里面,这个可能更有说服力。”
多模态模型的快速应用落地,除了对大模型企业商业闭环意义重大,也有助于收集更多数据,形成飞轮驱动模型本身进步。
尤其是,尽管多模态模型落地已经如火如荼,但属于多模态的“GPT-4时刻”尚未真正到来。也就是说,如今多模态的推理模型尚不成熟,理解生成一体化尚未实现,世界模型也还较为遥远,这都意味着,其基础架构仍有很大创新空间,国产芯片对模型的适配也可以从更早期阶段起步,避免如语言模型一样的英伟达一家独大。
天数智芯董事长兼CEO盖鲁江指出,“从芯片到整机厂商、模型厂商,再到最终应用场景,这4个环节都是产业链的重要组成部分,如果能够通过联盟建立统一标准,将会省去大量的适配成本。”
值得注意的是,在上述模芯联盟中,来自上海的企业占据了半壁江山。
作为国内工业化最早、最完整的城市,上海在互联网时代一度显得低调,但随着人工智能爆发,上海的产业地位正在不断提升。
其实,上海人工智能产业的独特优势,正藏在“软硬协同”四个字之中。
在无问芯穹与上海算法创新研究院的合作中,双方成功基于3000卡沐曦国产GPU集群,稳定支撑百亿参数大模型训练长达600小时不间断,创造了国产算力模型训练的记录。
这无疑是一种更高层面上的系统集成。当其他城市还在讨论如何“补链”时,上海已经让AI成为城市基础设施的一部分。
1、时隔1年便回归!罗马诺晒照:36岁前锋奥巴梅扬已经抵达马赛,奥巴马罗姆尼选票
2、西宁曹家堡国际机场T3航站楼将于8月7日启用,西宁曹家堡国际机场t2