沈阳软件开发-沈阳软件定制开发-沈阳商城开发-沈阳微信小程序开发|沈阳互帮科技有限公司
NEWS 新闻中心
当前位置:新闻中心

Title
Grok 3发布引发热议:预训练阶段Scaling Law是否仍有效?

发布时间:2025-02-21 09:29:30    作者:小编

近日,埃隆·马斯克旗下的人工智能公司xAI震撼发布了Grok 3系列模型,这一消息迅速在AI界掀起了轩然大波。据悉,Grok 3使用了惊人的20万张英伟达H100 GPU,被马斯克誉为“地球上最聪明的AI”。那么,这一壮举是否意味着预训练阶段的Scaling Law仍然大行其道?让我们深入探讨。


一、Grok 3发布,预训练Scaling Law再起争议

自Deepseek以低成本、高性价比的预训练模式横空出世,并宣称预训练Scaling Law已死之后,AI界对于大规模GPU是否仍是制胜法宝产生了广泛讨论。然而,Grok 3的发布似乎又将话题拉回了原点——大规模算力是否仍然是提升AI能力的关键?

对此,业内专家张俊林老师进行了深度拆解。他指出,预训练阶段的Scaling Law并未撞墙,而是由于数据不足导致走势趋缓。即便没有新数据,只要增加基座模型尺寸,效果仍然会提升,但性价比过低。因此,大家开始转向RL Scaling Law和Test Time Scaling Law,以期在付出同样算力的情况下获得更显著的智商提升。


二、性价比排序:Test Time Scaling > RL Scaling > 预训练Scaling

在张俊林老师看来,目前提高模型效果的Scaling方法按照性价比由高到低排序为:Test Time Scaling Law、RL Scaling Law、预训练阶段Scaling Law(数据不足时只能推大模型尺寸)。这意味着,在性价比更高的Scaling方法存在的情况下,预训练阶段的Scaling Law会被优先替代。

然而,这并不意味着囤积大量GPU对训练模型无用。张俊林老师指出,卡多可以极大地压缩实验新想法和训练大模型基座的时间周期,从而提高探索效率。


三、Grok 3的“传统”与“时髦”

Grok 3作为通用基座模型,其评测指标主要集中在数学、科学和代码数据集上,并未涉及通用能力如MMLU指标的对比。这引发了业界对其通用能力是否大幅提升的质疑。不过,从方法论和成本角度来看,提升基座模型的数学、科学和代码能力并不难,关键在于引入深度思考数据(COT)进行后训练或预训练。

值得注意的是,尽管Grok 3在预训练阶段采取了看似“传统”的推大基座模型尺寸的做法,但其深度思考版本在评测指标上确实达到了或超过了OpenAI的o3 mini,成为目前效果最好的模型之一。这背后或许隐藏着RL Scaling与基座模型尺寸之间的正相关关系——基座模型越大,RL阶段的Scaling效果越好。


四、AGI解决方案的完整轮廓?

张俊林老师进一步推断,如果上述假设成立,那么三个Scaling Law(Pre-train、RL、Test Time)在提高大模型智商的性价比上呈现出由高到低的排序。同时,这三个Scaling Law之间存在着相互依赖的天花板效应。这意味着,当RL和Test Time天花板到顶时,我们可以通过推大基座模型尺寸来提升RL阶段Scaling的天花板,进而再次Scale RL和Test Time,从而得到智商更高的大模型。这一推论为AGI的解决方案描绘了一个完整的轮廓。


Grok 3的发布不仅引发了业界对于预训练阶段Scaling Law是否仍有效的热议,更让我们看到了AI领域不断突破、不断创新的精神。随着技术的不断进步和算法的持续优化,我们有理由相信,未来AI将会为人类带来更多惊喜和可能。


返回列表

联系我们

contact us
2017- 2024 沈阳互帮科技有限公司  ICP备案编号:辽ICP备17009060号-3