康泰中医理疗馆

年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 堪称所有边界碾压博士


发布日期:2025-07-11 04:54    点击次数:161


马斯克憋了快半年,终于把 Grok 4 端上了台面。

这一次,他的语气依旧不小。早在发布会前就放出狠话,宣称 Grok 4 要「重写东说念主类学问库」。比及了发布会上,马斯克再次强调 Grok 4 是现活着界上最贤人的 AI。

不错,老到的滋味,老到的配方。

天然,马斯克夸自家产物这事儿,全球早就见怪不怪,但正如网友所捉弄的那样,你不错调侃 xAI 职工在办公室帐篷里休眠或者周末职责到凌晨 4:20,但也得承认,他们的确是当下发展速率最快的 AI 实验室之一。

至于 Grok 4 能不行配得上「最贤人 AI」的称呼,还得看后续的本色体验。不外,有少许是跑不了的——它一经成了市面上最贵的 AI,年订阅价钱最高可达到 3000 好意思元,订价政策可谓是特殊不讲武德。

寰宇上最贤人的 AI?寰宇上最贵的 AI!

Grok 的造就旅途分为两个中枢阶段:预造就与强化学习。从 Grok 2 到 Grok 3,主要依赖预造就形式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理才智为中枢的强化学习造就。

马斯克说得蜻蜓点水,但造就的动静却不小。

比较 Grok 2,Grok 4 的造就磋议量擢升了整整两个数目级,特殊于增长了 100 倍——何况还在持续膨胀。

马斯克默示,Grok 4 已在所有主要学科上高出博士水平。天然它现在尚不具备发明新表面或建议原创技艺的才智,但在他看来,这仅仅期间问题。

他以至语言,本年底 Grok 可能就能发明新技艺,来岁简直不错细则将具备发现新物理轨则的才智。

天然,让 AI 接入推行寰宇,才是确切的要津。

他默示,Grok 与东说念主形机器东说念主 Optimus 的迷惑,将变成一个闭环推理系统——建议假定、考证假定、探索推行。这将开启一个智能大爆炸的期间,是东说念主类历史上最令东说念主怡悦的节点。

在产物形态上,Grok 4 是单智能体模子,而 Grok 4 Heavy 则是多智能体版块。

前者比较好贯通,此后者则复古多个智能体并行念念考,在推理进程中横向比对、纵向协同,调用更大边界的磋议资源以完成更复杂、更精密的任务。

在现场演示中,Grok 4 Heavy 展示了多个场景才智。

比喻说,让 Grok 4 Heavy 去预测本年 MLB 寰宇大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率磋议,评估洛杉矶说念奇队的夺冠概率为 21.6%,并在 4.5 分钟内竣工输出预测进程。

再比如,一个看似无厘头的任务:找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的府上库,模子自动捏取并分析头像作风,临了锁定了协调首创东说念主 Greg Yang。

道理道理的是,天然模子准确贯通了「奇怪」这一主不雅成见,并能在同类中作念出相对判断,但在一转而过的演示中,我似乎看到了 Anthropic 职工 Jan Leike 的头像,看来准确率也有待提高。

除了推理和搜索,Grok 还能生成内容期间轴。

比如,把柄 X 平台上的公设立帖,它能梳理出多个 AI 模子的基准测试收货、厂商更新节拍以及社区反应。用户不错一目了然地看到 OpenAI 的分数发扬、Gemini 的更新迭代,以至是模子之间的精巧竞争态势。

换句话说,Grok 不是只会考试的书呆子,而是确切具备跨场景贯通与扩充才智的 AI。

现在,Grok 最大的短板依然迷惑在多模态贯通才智,尤其是在图像贯通和生成方面,才智仍有待加强。好音讯是,下一阶段的基础模子造就一经在路上,预测几周内完成。

演示进程中,在测试「两个黑洞相撞进程」的可视化任务时,Grok 聘用了简化的磋议形式——使用后牛顿肖似(Post-Newtonian approximation)替代竣工的广义相对论框架。

尽管存在简化,模子依然准确地呈现了黑洞并合的要津物理阶段,包括「螺旋接近」、「团结」与「振铃阶段」,并能显着判辨所聘用的肖似门径。此外,它还调用了关系课本、公开搜索后果及本色物理常数进行推理复古,举座逻辑链条严谨、解释显着。

就纸面参数而言,Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam(东说念主类临了的考试,简称:HLE,)隐蔽了数学、物理、磋议机、医学、东说念主文社科等朝上 100 个学科,共 2500 说念闭卷题,测试难度极高,未必确切反应模子在通用学问和复杂推理上的抽象发扬。

把柄 xAI 数据,Grok 4 在不使用任何器具的情况下,得分为 25.4%,朝上了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。

而在使用器具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用器具后 Gemini 2.5 Pro 的 26.9%。从举座趋势来看,Grok 4 在扩展造就资源的同期,通过引入器具使用和链式念念维,不仅擢升了复杂任务的处理才智,也缓缓收缩了模子智能与通用表现之间的差距。

非谋利组织 Arc Prize 也指出,Grok 在其 ARC-AGI-2 测试中创下新记录。这是一项视觉推理类基准测试,AI 需识别图像中的模式。Grok 的得分为 16.2%,简直是现时排名第二的 Claude Opus 4 的两倍。

面临一些老例的基准测试中,Grok 4 Heavy 的分数简直也快「刷满」分数。在博士级难度的问题集 GBQA 中,尽管举座难度略低于 HLE,Grok 4 Heavy 依然取得了满分收货,展现出极强的推理与贯通才智。

不仅如斯,在多项编程关系测试中,Grok 4 Heavy 的发扬雷同拉风。不管是 Live Coding、HMMT(麻省理工数学竞赛)照旧 USAMO(好意思国数学奥林匹克),它王人远超现时排名第二的模子,技艺上风特殊较着。

另外,驰名分析机构 Artificial Analysis 通过对多款主流大模子在 7 个推理关系基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的抽象发扬进行评估。

数据露馅,Grok 4 位列第一,得分为 73,是现在推理才智抽象得分最高的模子。紧随自后的则是 o3-pro(估算值)71 分。

马斯克也强调:

「改日 Grok 将简直在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题主义造作之处,或者指出问题暗昧不清的处所,并给出不怜悯境下可能的谜底。到当时,传统考试将失去道理道理。AI 独一的检修圭臬将是推行寰宇:它是否能发明有效的技艺,是否能鼓吹科学的冲突。是以 HLE 这类测试题库必须尽快更新,因为以现时的 AI 进展速率,它们很快就会过期。」

胁制发稿前,Grok 4 和 Grok 4 Heavy 现在均已连接上线。

现在,Grok 4 和 Grok 4 Heavy 已全面上线。用户不错通过订阅探望,不外,订阅价钱就有点「不讲武德」,最高可去到 3000 好意思元/年档位,成了不少用户吐槽的焦点。

这样一比,OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐王人显得实惠很多。

值得一提的是,发布后不久就有网友默示,Grok-4 与 Grok-4-Heavy 模子一经被得手「逃狱」。逃狱后的才智极其危急,可绕过安全护栏,输出敏锐或监犯信息,比如化学火器合成门径、《星球大战1》的竣工脚本(涉嫌版权)、以至绑架病毒(坏心代码)等。

不单会谈话,Grok Voice 还有了「灵魂」

除了更强的推理才智,更贤人,Grok 4 此次也在「更像东说念主」这件事上,迈出了一大步。

跟咱们老到的语音助手不同,xAI 全新语音助手「Eve」不仅仅能答话,它能抒发表情、有语调变化,以至还能现场「唱歌」。

在直播现场的演示上,它用一口优雅的英音,唱了一首随性创作的「Diet Coke 咏叹调」,「O Diet Coke, thou elixir divine…」听起来真实不像是 AI,像是伦敦戏院里的舞台演员在扮演。

此次语音模子一共上线了五种声息,包括直播开场的「电影一般的预报男声」Sal,以及复古低蔓延、天然停顿、表情更正等才智的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮替复述数字。ChatGPT 频频时「抢答」,有点像没听清就硬接话的同学。而 Grok 的发扬更通顺、更靠拢东说念主类谈话风气,何况不会打断用户谈话。

发布会上提到,自语音模子上线以来,Grok Voice 的端到端蔓延镌汰了两倍,活跃用户也增长了 10 倍。Grok Voice 正在赶快发展。

马斯克:让 Grok 去开一百万个自动售货机获利

几个 Grok 4 API 的运用场景让我印象特殊真切。

比如,在一项自动售货机生意模拟 Vending-Bench中,Grok 被条款自主完成:供应商协商、库存贬责、订价政策,贯穿完成并遥远保持盈利。

▲注:Vending-Bench 是一个故意狡计用于测试基于 LLM 的代理,在贬责一个简短但遥远运行的业务场景中的才智:运营一台自动售货机。

测试后果露馅,Grok 4 不仅登顶名次榜,何况它所得到的净钞票是其他模子的两倍。连马斯克王人运转捉弄说:「以后买显卡的钱,不错让 Grok 去部署运营一百万个自动售卖机赚追想」。

在科研边界,Grok 4 已被用于 CRISPR 基因商讨和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日记,自动筛出最有可能得手的假定。

此外,像是金融边界、游戏设立等式样,王人不错通过 xAI API 来使用 Grok 4 来终了。发布会上非常提到了一个游戏狡计师,他在 xAI 发布了 Grok 4 预览 API 后,就坐窝参与测试。然后,他花了短短 4 小时就作念出了一个第一东说念主称射击游戏。

Grok 4 不是尽头。发布会临了预报了接下来的路子图,每一项王人特殊值得期待。

代码模子:此次果然莫得发布 Grok Code,不外 xAI 提到正在造就了,一个「又快又贤人」的代码模子将会在几周内上线。多模态才智:Grok 4 在图像贯通上发扬依旧是有限,团队也说正在以更大边界造就下一个版块,预测会在图像、视频和音频贯通上迎来质变,到时 Grok 将能「像东说念主类一样看寰宇」。视频生成:xAI 说将使用大边界的算力资源,进行视频生成模子的造就。他们的最终指标是作念到图生视频,生成可交互的「无限视频流」,让用户能边看边参与剧情走向。

可能有不少一又友一经发现,此次发布会还有两个老到的华东说念主模样。他们恰是 xAI 的协调首创东说念主——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。

其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年得到多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后商讨。

吴宇怀的商讨要点是打造具备强推理才智的东说念主工智能系统,先后主导或参与了自造就推理模子 STAR、语言模子 Minerva 以及定理讲解器 Alpha Geometry 等式样,并在《Nature》等顶刊上发表论文,鼓吹 AI 在数学推理边界终了冲突。

▲ 吴宇怀(左二)和吉米·巴(左三)

▲ 吴宇怀(左二)和吉米·巴(左三)

坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学磋议机科学系的助理讲授,亦然吴宇怀博士时期的导师之一。

他雷同降生于辛顿门下,是深度学习造就优化边界的要津东说念主物。

最为东说念主熟知的,是他与配合者共同建议了 Adam Optimizer(自适宜矩猜度优化器)——如今简直成为深度神经收集造就的默许算法。不错说,他的博士论文为当代 AI 造就机制奠定了坚实表面基础。

不得不说,Gork 4 的到来适逢其会。

前代 Grok 3 的热度来得猛,退得也快。

把柄驰名商场分析机构 SimilarWeb 发布的胁制 5 月 9 日的《2025年全球生成式AI行业趋势呈报》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。

比较前代仓促上线、草草交卷的节拍,此次的 Grok 4 较着延缓了脚步,在产物打磨上也更下功夫。归根结底,马斯克的光环不错帮 Grok 带来第一波流量,但能不行留住用户,还得靠模子自己的硬实力。

只不外,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月曩昔了,这事儿却毫无动静,此次发布会上也没再提半句。

老马啊,可不行宽于律己,严以待东说念主呀。

作家:张子豪、莫崇宇

  声明:新浪网独家稿件,未经授权辞谢转载。 -->

上一篇:“疫苗之王”科兴,分光吃光    下一篇:没有了