| 可用性 | Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所有用户开放。立即在自动模式下推出,并可以在模型选择器中明确选择“Grok 4.1”。 |
| 改进点 | 在创意、情感和协作互动方面表现出色;对细微意图更加敏感;对话更具吸引力;个性更加一致,同时完全保留了前代产品的敏锐智能与可靠性。 |
| 技术进步 | 使用了与Grok 4相同的大型强化学习基础设施来优化模型的风格、个性、帮助性和一致性。开发了新方法,允许使用前沿代理推理模型作为奖励模型,以自主地大规模评估和迭代响应。 |
| 静默部署 | 从2025年11月1日至14日,逐步向越来越多的生产流量推出了初步的Grok 4.1版本。期间进行了连续的盲配对评估。 |
| 用户偏好 | 相比之前的生产模型,在流量中的偏好率为64.78%。 |
| 通用能力 | 在盲人偏好评估中设定了新的标准。 |
| LMArena Text Leaderboard表现 | 思考模式(代号:quasarflux)排名第一,得分为1483 Elo;非思考模式(代号:tensor)排名第二,得分为1465 Elo。 |
| 情商 | 在EQ-Bench3测试中展示了卓越的情感智能能力,包括理解力、洞察力、同理心及人际交往技巧。 |
| 创造性写作 | 在Creative Writing v3基准测试中取得了高分,证明了其在创作性内容生成方面的强大能力。 |
| 减少幻觉现象 | 通过专注于减少信息查询提示中的事实错误,显著降低了快速(非推理)模型的幻觉率。 |