马斯克最强模型Grok4登场

xinwen.mobi · 发表于 2025-7-11 13:42:10

2025年7月10日，马斯克旗下xAI发布了新一代大模型Grok 4。该模型在多个基准测试中表现出色，被称为“全球最聪明AI”。以下是具体介绍：性能表现： HLE测试：在被称为“人类最终测试”的HLE测试中，Grok 4的文本模型在不使用任何外部工具的情况下取得了26.9%的成绩，当允许使用工具时，成绩飙升至41.0%。Grok 4 Heavy的“重思考”模式得分更是达到了58.3%，几乎将此前SOTA纪录翻了一倍多。 ARC-AGI-2测试：在衡量通用人工智能潜力的ARC-AGI-2抽象推理挑战赛中，Grok 4（Thinking）以15.9%的得分创下新的SOTA，几乎是之前商业模型最高纪录的两倍。 AIME 25测试：Grok 4 Heavy在AIME 25美国数学邀请赛中史无前例地取得了100%的满分，完美解出了所有高难度数学题。 GPQA测试：在研究生水平问答测试GPQA中，Grok 4得分高达88.9%，超越所有对手。 Artificial Analysis智能指数：在综合了MMLU-Pro、GPQA Diamond、HLE等七项顶级评测的Artificial Analysis智能指数中，Grok 4以73分高居榜首，超越了包括o3 - pro、Gemini 2.5 Pro在内的所有模型。技术特点：多智能体协作：Grok 4 Heavy采用了全新的内部协作机制，遇到复杂问题时，会“分身”出多个独立智能体，从不同角度思考解决问题，然后通过“比较笔记”环节分享最佳方案，形成最终答案，增加了思考的深度和广度。基于第一性原理：xAI秉持“最大化地寻求真相”的哲学，让Grok 4面对争议性或复杂伦理问题时，会从第一性原理出发，进行深入、不带偏见的推理。强大算力支持：Grok 4的训练是在拥有超过20万张H100 GPU的超级计算机集群上完成的，训练量相比Grok 2提升了100倍，且更多算力被投入到“推理能力”专项训练上。功能展示：黑洞碰撞模拟：面对“生成两个黑洞碰撞的动画”的要求，Grok 4能理解相关物理学原理，编写Python代码并调用库生成可视化动图，还能在代码注释中解释细节。游戏开发：借助Grok 4，开发者可在4小时内从零开始制作出完整的第一人称射击游戏，它不仅能编写核心逻辑代码，还能完成纹理贴图、处理3D模型等美术资源工作。商业模拟：在“Vending Bench”商业模拟平台中，Grok 4扮演自动售货机公司经营者，创造的“净资产”价值达到排行榜第二名模型的两倍，展现出强大的长期战略规划和执行能力。应用与订阅：Grok 4 API已向所有开发者正式开放，并将登录第三方云平台。SuperGrok的用户已可以使用Grok 4，普通版月费30美元，Heavy版月费300美元。

		自动登录	找回密码
密码			立即注册

马斯克最强模型Grok4登场

相关帖子