找回密码
 立即注册
搜索

马斯克最强模型Grok4登场

[复制链接]
xinwen.mobi 发表于 2025-7-11 13:42:10 | 显示全部楼层 |阅读模式
2025年7月10日,马斯克旗下xAI发布了新一代大模型Grok 4。该模型在多个基准测试中表现出色,被称为“全球最聪明AI”。以下是具体介绍:性能表现:    HLE测试:在被称为“人类最终测试”的HLE测试中,Grok 4的文本模型在不使用任何外部工具的情况下取得了26.9%的成绩,当允许使用工具时,成绩飙升至41.0%。Grok 4 Heavy的“重思考”模式得分更是达到了58.3%,几乎将此前SOTA纪录翻了一倍多。    ARC-AGI-2测试:在衡量通用人工智能潜力的ARC-AGI-2抽象推理挑战赛中,Grok 4(Thinking)以15.9%的得分创下新的SOTA,几乎是之前商业模型最高纪录的两倍。    AIME 25测试:Grok 4 Heavy在AIME 25美国数学邀请赛中史无前例地取得了100%的满分,完美解出了所有高难度数学题。    GPQA测试:在研究生水平问答测试GPQA中,Grok 4得分高达88.9%,超越所有对手。    Artificial Analysis智能指数:在综合了MMLU-Pro、GPQA Diamond、HLE等七项顶级评测的Artificial Analysis智能指数中,Grok 4以73分高居榜首,超越了包括o3 - pro、Gemini 2.5 Pro在内的所有模型。技术特点:    多智能体协作:Grok 4 Heavy采用了全新的内部协作机制,遇到复杂问题时,会“分身”出多个独立智能体,从不同角度思考解决问题,然后通过“比较笔记”环节分享最佳方案,形成最终答案,增加了思考的深度和广度。    基于第一性原理:xAI秉持“最大化地寻求真相”的哲学,让Grok 4面对争议性或复杂伦理问题时,会从第一性原理出发,进行深入、不带偏见的推理。    强大算力支持:Grok 4的训练是在拥有超过20万张H100 GPU的超级计算机集群上完成的,训练量相比Grok 2提升了100倍,且更多算力被投入到“推理能力”专项训练上。功能展示:    黑洞碰撞模拟:面对“生成两个黑洞碰撞的动画”的要求,Grok 4能理解相关物理学原理,编写Python代码并调用库生成可视化动图,还能在代码注释中解释细节。    游戏开发:借助Grok 4,开发者可在4小时内从零开始制作出完整的第一人称射击游戏,它不仅能编写核心逻辑代码,还能完成纹理贴图、处理3D模型等美术资源工作。    商业模拟:在“Vending Bench”商业模拟平台中,Grok 4扮演自动售货机公司经营者,创造的“净资产”价值达到排行榜第二名模型的两倍,展现出强大的长期战略规划和执行能力。应用与订阅:Grok 4 API已向所有开发者正式开放,并将登录第三方云平台。SuperGrok的用户已可以使用Grok 4,普通版月费30美元,Heavy版月费300美元。
回复

使用道具 举报

QQ|周边二手车|手机版|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2026-1-15 01:43 , Processed in 0.208499 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表