Peng Tan's AI Blog

特性	描述
可用性	Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所有用户开放。立即在自动模式下推出，并可以在模型选择器中明确选择“Grok 4.1”。
改进点	在创意、情感和协作互动方面表现出色；对细微意图更加敏感；对话更具吸引力；个性更加一致，同时完全保留了前代产品的敏锐智能与可靠性。
技术进步	使用了与Grok 4相同的大型强化学习基础设施来优化模型的风格、个性、帮助性和一致性。开发了新方法，允许使用前沿代理推理模型作为奖励模型，以自主地大规模评估和迭代响应。
静默部署	从2025年11月1日至14日，逐步向越来越多的生产流量推出了初步的Grok 4.1版本。期间进行了连续的盲配对评估。
用户偏好	相比之前的生产模型，在流量中的偏好率为64.78%。
通用能力	在盲人偏好评估中设定了新的标准。
LMArena Text Leaderboard表现	思考模式（代号：quasarflux）排名第一，得分为1483 Elo；非思考模式（代号：tensor）排名第二，得分为1465 Elo。
情商	在EQ-Bench3测试中展示了卓越的情感智能能力，包括理解力、洞察力、同理心及人际交往技巧。
创造性写作	在Creative Writing v3基准测试中取得了高分，证明了其在创作性内容生成方面的强大能力。
减少幻觉现象	通过专注于减少信息查询提示中的事实错误，显著降低了快速（非推理）模型的幻觉率。

数字分身