年费超 2 万！马斯克刚刚发布最贵 AI ，Grok 4 堪称所有边界碾压博士

发布日期：2025-07-11 04:54 点击次数：174

马斯克憋了快半年，终于把 Grok 4 端上了台面。

这一次，他的语气依旧不小。早在发布会前就放出狠话，宣称 Grok 4 要「重写东说念主类学问库」。比及了发布会上，马斯克再次强调 Grok 4 是现活着界上最贤人的 AI。

不错，老到的滋味，老到的配方。

天然，马斯克夸自家产物这事儿，全球早就见怪不怪，但正如网友所捉弄的那样，你不错调侃 xAI 职工在办公室帐篷里休眠或者周末职责到凌晨 4:20，但也得承认，他们的确是当下发展速率最快的 AI 实验室之一。

至于 Grok 4 能不行配得上「最贤人 AI」的称呼，还得看后续的本色体验。不外，有少许是跑不了的——它一经成了市面上最贵的 AI，年订阅价钱最高可达到 3000 好意思元，订价政策可谓是特殊不讲武德。

寰宇上最贤人的 AI？寰宇上最贵的 AI！

Grok 的造就旅途分为两个中枢阶段：预造就与强化学习。从 Grok 2 到 Grok 3，主要依赖预造就形式；而从 Grok 3 升级到 Grok 4，则大幅引入了以推理才智为中枢的强化学习造就。

马斯克说得蜻蜓点水，但造就的动静却不小。

比较 Grok 2，Grok 4 的造就磋议量擢升了整整两个数目级，特殊于增长了 100 倍——何况还在持续膨胀。

马斯克默示，Grok 4 已在所有主要学科上高出博士水平。天然它现在尚不具备发明新表面或建议原创技艺的才智，但在他看来，这仅仅期间问题。

他以至语言，本年底 Grok 可能就能发明新技艺，来岁简直不错细则将具备发现新物理轨则的才智。

天然，让 AI 接入推行寰宇，才是确切的要津。

他默示，Grok 与东说念主形机器东说念主 Optimus 的迷惑，将变成一个闭环推理系统——建议假定、考证假定、探索推行。这将开启一个智能大爆炸的期间，是东说念主类历史上最令东说念主怡悦的节点。

在产物形态上，Grok 4 是单智能体模子，而 Grok 4 Heavy 则是多智能体版块。

前者比较好贯通，此后者则复古多个智能体并行念念考，在推理进程中横向比对、纵向协同，调用更大边界的磋议资源以完成更复杂、更精密的任务。

在现场演示中，Grok 4 Heavy 展示了多个场景才智。

比喻说，让 Grok 4 Heavy 去预测本年 MLB 寰宇大赛（World Series）的冠军概率，它通过信息检索、数据建模、概率磋议，评估洛杉矶说念奇队的夺冠概率为 21.6%，并在 4.5 分钟内竣工输出预测进程。

再比如，一个看似无厘头的任务：找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的府上库，模子自动捏取并分析头像作风，临了锁定了协调首创东说念主 Greg Yang。

道理道理的是，天然模子准确贯通了「奇怪」这一主不雅成见，并能在同类中作念出相对判断，但在一转而过的演示中，我似乎看到了 Anthropic 职工 Jan Leike 的头像，看来准确率也有待提高。

除了推理和搜索，Grok 还能生成内容期间轴。

比如，把柄 X 平台上的公设立帖，它能梳理出多个 AI 模子的基准测试收货、厂商更新节拍以及社区反应。用户不错一目了然地看到 OpenAI 的分数发扬、Gemini 的更新迭代，以至是模子之间的精巧竞争态势。

换句话说，Grok 不是只会考试的书呆子，而是确切具备跨场景贯通与扩充才智的 AI。

现在，Grok 最大的短板依然迷惑在多模态贯通才智，尤其是在图像贯通和生成方面，才智仍有待加强。好音讯是，下一阶段的基础模子造就一经在路上，预测几周内完成。

演示进程中，在测试「两个黑洞相撞进程」的可视化任务时，Grok 聘用了简化的磋议形式——使用后牛顿肖似（Post-Newtonian approximation）替代竣工的广义相对论框架。

尽管存在简化，模子依然准确地呈现了黑洞并合的要津物理阶段，包括「螺旋接近」、「团结」与「振铃阶段」，并能显着判辨所聘用的肖似门径。此外，它还调用了关系课本、公开搜索后果及本色物理常数进行推理复古，举座逻辑链条严谨、解释显着。

就纸面参数而言，Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam（东说念主类临了的考试，简称：HLE，）隐蔽了数学、物理、磋议机、医学、东说念主文社科等朝上 100 个学科，共 2500 说念闭卷题，测试难度极高，未必确切反应模子在通用学问和复杂推理上的抽象发扬。

把柄 xAI 数据，Grok 4 在不使用任何器具的情况下，得分为 25.4%，朝上了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3（高配版）的 21%。

而在使用器具的情况下，Grok 4 Heavy 的得分达到 44.4%，远高于使用器具后 Gemini 2.5 Pro 的 26.9%。从举座趋势来看，Grok 4 在扩展造就资源的同期，通过引入器具使用和链式念念维，不仅擢升了复杂任务的处理才智，也缓缓收缩了模子智能与通用表现之间的差距。

非谋利组织 Arc Prize 也指出，Grok 在其 ARC-AGI-2 测试中创下新记录。这是一项视觉推理类基准测试，AI 需识别图像中的模式。Grok 的得分为 16.2%，简直是现时排名第二的 Claude Opus 4 的两倍。

面临一些老例的基准测试中，Grok 4 Heavy 的分数简直也快「刷满」分数。在博士级难度的问题集 GBQA 中，尽管举座难度略低于 HLE，Grok 4 Heavy 依然取得了满分收货，展现出极强的推理与贯通才智。

不仅如斯，在多项编程关系测试中，Grok 4 Heavy 的发扬雷同拉风。不管是 Live Coding、HMMT（麻省理工数学竞赛）照旧 USAMO（好意思国数学奥林匹克），它王人远超现时排名第二的模子，技艺上风特殊较着。

另外，驰名分析机构 Artificial Analysis 通过对多款主流大模子在 7 个推理关系基准（MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500）上的抽象发扬进行评估。

数据露馅，Grok 4 位列第一，得分为 73，是现在推理才智抽象得分最高的模子。紧随自后的则是 o3-pro（估算值）71 分。

马斯克也强调：

「改日 Grok 将简直在所有考试中答对每一个问题。而当它答不出某个问题时，它会指出题主义造作之处，或者指出问题暗昧不清的处所，并给出不怜悯境下可能的谜底。到当时，传统考试将失去道理道理。AI 独一的检修圭臬将是推行寰宇：它是否能发明有效的技艺，是否能鼓吹科学的冲突。是以 HLE 这类测试题库必须尽快更新，因为以现时的 AI 进展速率，它们很快就会过期。」

胁制发稿前，Grok 4 和 Grok 4 Heavy 现在均已连接上线。

现在，Grok 4 和 Grok 4 Heavy 已全面上线。用户不错通过订阅探望，不外，订阅价钱就有点「不讲武德」，最高可去到 3000 好意思元/年档位，成了不少用户吐槽的焦点。

这样一比，OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐王人显得实惠很多。

值得一提的是，发布后不久就有网友默示，Grok-4 与 Grok-4-Heavy 模子一经被得手「逃狱」。逃狱后的才智极其危急，可绕过安全护栏，输出敏锐或监犯信息，比如化学火器合成门径、《星球大战1》的竣工脚本（涉嫌版权）、以至绑架病毒（坏心代码）等。

不单会谈话，Grok Voice 还有了「灵魂」

除了更强的推理才智，更贤人，Grok 4 此次也在「更像东说念主」这件事上，迈出了一大步。

跟咱们老到的语音助手不同，xAI 全新语音助手「Eve」不仅仅能答话，它能抒发表情、有语调变化，以至还能现场「唱歌」。

在直播现场的演示上，它用一口优雅的英音，唱了一首随性创作的「Diet Coke 咏叹调」，「O Diet Coke, thou elixir divine…」听起来真实不像是 AI，像是伦敦戏院里的舞台演员在扮演。

此次语音模子一共上线了五种声息，包括直播开场的「电影一般的预报男声」Sal，以及复古低蔓延、天然停顿、表情更正等才智的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示，两者轮替复述数字。ChatGPT 频频时「抢答」，有点像没听清就硬接话的同学。而 Grok 的发扬更通顺、更靠拢东说念主类谈话风气，何况不会打断用户谈话。

发布会上提到，自语音模子上线以来，Grok Voice 的端到端蔓延镌汰了两倍，活跃用户也增长了 10 倍。Grok Voice 正在赶快发展。

马斯克：让 Grok 去开一百万个自动售货机获利

几个 Grok 4 API 的运用场景让我印象特殊真切。

比如，在一项自动售货机生意模拟 Vending-Bench中，Grok 被条款自主完成：供应商协商、库存贬责、订价政策，贯穿完成并遥远保持盈利。

▲注：Vending-Bench 是一个故意狡计用于测试基于 LLM 的代理，在贬责一个简短但遥远运行的业务场景中的才智：运营一台自动售货机。

测试后果露馅，Grok 4 不仅登顶名次榜，何况它所得到的净钞票是其他模子的两倍。连马斯克王人运转捉弄说：「以后买显卡的钱，不错让 Grok 去部署运营一百万个自动售卖机赚追想」。

在科研边界，Grok 4 已被用于 CRISPR 基因商讨和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日记，自动筛出最有可能得手的假定。

此外，像是金融边界、游戏设立等式样，王人不错通过 xAI API 来使用 Grok 4 来终了。发布会上非常提到了一个游戏狡计师，他在 xAI 发布了 Grok 4 预览 API 后，就坐窝参与测试。然后，他花了短短 4 小时就作念出了一个第一东说念主称射击游戏。

Grok 4 不是尽头。发布会临了预报了接下来的路子图，每一项王人特殊值得期待。

代码模子：此次果然莫得发布 Grok Code，不外 xAI 提到正在造就了，一个「又快又贤人」的代码模子将会在几周内上线。多模态才智：Grok 4 在图像贯通上发扬依旧是有限，团队也说正在以更大边界造就下一个版块，预测会在图像、视频和音频贯通上迎来质变，到时 Grok 将能「像东说念主类一样看寰宇」。视频生成：xAI 说将使用大边界的算力资源，进行视频生成模子的造就。他们的最终指标是作念到图生视频，生成可交互的「无限视频流」，让用户能边看边参与剧情走向。

可能有不少一又友一经发现，此次发布会还有两个老到的华东说念主模样。他们恰是 xAI 的协调首创东说念主——吉米·巴（Jimmy Ba）和吴宇怀（Yuhuai Wu）。

其中，吴宇怀（Yuhuai Wu）本科以满绩点毕业于加拿大纽布伦斯威克大学，并在 2021 年得到多伦多大学机器学习博士学位，期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段，他还曾在 Google DeepMind 和 OpenAI 实习，毕业后在 Google 任职，并在斯坦福大学从事博士后商讨。

吴宇怀的商讨要点是打造具备强推理才智的东说念主工智能系统，先后主导或参与了自造就推理模子 STAR、语言模子 Minerva 以及定理讲解器 Alpha Geometry 等式样，并在《Nature》等顶刊上发表论文，鼓吹 AI 在数学推理边界终了冲突。

▲ 吴宇怀（左二）和吉米·巴（左三）

坐在他身旁的吉米·巴（Jimmy Ba）则是多伦多大学磋议机科学系的助理讲授，亦然吴宇怀博士时期的导师之一。

他雷同降生于辛顿门下，是深度学习造就优化边界的要津东说念主物。

最为东说念主熟知的，是他与配合者共同建议了 Adam Optimizer（自适宜矩猜度优化器）——如今简直成为深度神经收集造就的默许算法。不错说，他的博士论文为当代 AI 造就机制奠定了坚实表面基础。

不得不说，Gork 4 的到来适逢其会。

前代 Grok 3 的热度来得猛，退得也快。

把柄驰名商场分析机构 SimilarWeb 发布的胁制 5 月 9 日的《2025年全球生成式AI行业趋势呈报》，Grok 从三月流量暴涨超 100 万倍，到五月增幅跌回 5200%。

比较前代仓促上线、草草交卷的节拍，此次的 Grok 4 较着延缓了脚步，在产物打磨上也更下功夫。归根结底，马斯克的光环不错帮 Grok 带来第一波流量，但能不行留住用户，还得靠模子自己的硬实力。

只不外，我没记错的话，马斯克当初在 Grok 3 发布时，还信誓旦旦说要把 Grok 2 开源。眼看五个月曩昔了，这事儿却毫无动静，此次发布会上也没再提半句。

老马啊，可不行宽于律己，严以待东说念主呀。

作家：张子豪、莫崇宇

　　声明：新浪网独家稿件，未经授权辞谢转载。 -->

上一篇：“疫苗之王”科兴，分光吃光下一篇：里昂：澳门博彩企业派息回购有增漫空间首选星河文娱金沙中国

年费超 2 万！马斯克刚刚发布最贵 AI ，Grok 4 堪称所有边界碾压博士

热点资讯

推荐资讯

年费超 2 万！马斯克刚刚发布最贵 AI ，Grok 4 堪称所有边界碾压博士

热点资讯

推荐资讯

友情链接：