📅 0001-01-01

Scaling Laws

下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。


2. Chinchilla 理论曲线

  • 订正说明:Chinchilla模型 …

Scaling Laws

下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。


2. Chinchilla 理论曲线

  • 订正说明:Chinchilla模型由DeepMind团队在论文《Training Compute-Optimal Large Language Models》中提出,发表于2022年,论文ID为arxiv:2203.15556
  • 更正后信息
    • 论文ID:2203.15556
    • 发表时间:2022

3. Deep Scaling Laws

  • 订正说明:该理论通常与OpenAI的缩放定律研究相关,但表格中的描述更接近Chinchilla的结论。若特指参数、数据、计算复杂度三者的联合优化,可能对应论文《Scaling Laws for Neural Language Models》(2020年,ID:2001.08361)。
  • 更正后信息
    • 论文ID:2001.08361
    • 发表时间:2020

5. Scaling Laws for Transfer Learning

  • 订正说明:该领域的研究分散,但Google与OpenAI合作的论文《Scaling Laws for Transfer》发表于2021年,ID为arxiv:2102.01293(需核实具体内容是否匹配)。
  • 更正后信息
    • 论文ID:2102.01293(示例,需进一步验证)
    • 发表时间:2021

6. Data Scaling Laws

  • 订正说明:Google的PaLM项目相关论文《PaLM: Scaling Language Modeling with Pathways》发表于2022年,ID为arxiv:2204.02311
  • 更正后信息
    • 论文ID:2204.02311
    • 发表时间:2022

7. Lottery Ticket Hypothesis

  • 订正说明:原始论文由Frankle & Carbin于2018年发表,ID为arxiv:1803.03635,信息准确。
  • 无需更正

8. Scaling Laws for Multimodal Models

  • 订正说明:OpenAI的CLIP模型论文《Learning Transferable Visual Models From Natural Language Supervision》发表于2021年,ID为arxiv:2103.00020
  • 更正后信息
    • 论文ID:2103.00020
    • 发表时间:2021

9. FLOP-Efficiency Scaling Laws

  • 订正说明:NVIDIA与Meta的联合研究可能指向《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》(2022年,ID:2205.14135)。
  • 更正后信息
    • 论文ID:2205.14135
    • 发表时间:2022

10. Emergent Scaling Laws

  • 订正说明:Anthropic团队关于涌现现象的论文《Emergent Abilities of Large Language Models》发表于2022年,ID为arxiv:2206.07682
  • 更正后信息
    • 论文ID:2206.07682
    • 发表时间:2022

修订后表格

理论名称提出者/研究团队主要关注参数 / 关系核心思想及说明论文ID(arXiv)发表时间
Kaplan 理论/曲线OpenAI参数数量 ≫ 数据量主张在固定计算量(FLOPs)下优先扩展模型参数。增加模型参数数量能够显著提升性能;因而设计了超大规模模型(例如 GPT-3 的 175B 参数)但训练数据相对较少。Scaling Laws for Neural Language Models待确认
Chinchilla 理论曲线DeepMind参数与数据平衡在相同计算预算下,参数数量与训练数据应达到最佳平衡,避免参数过大导致资源浪费;实验表明减少参数并增加数据能够提升泛化能力。2203.155562022
Deep Scaling LawsOpenAI参数、数据、计算复杂度提出了模型性能(Loss)与 [N^{-a} + D^{-b} + C^{-c}] 的幂次关系,强调三者联合优化的重要性。2001.083612020
Optimal Compute AllocationDeepMind参数与数据反比配置研究在固定 FLOPs 下如何分配参数和训练数据,指出应该采用反比配置以充分利用计算资源,成为 Chinchilla 理论形成的基础。2203.155562022
Scaling Laws for Transfer LearningGoogle & OpenAI预训练与微调资源分配着眼于迁移学习阶段,探讨预训练和微调资源如何协同作用,展示如何通过调整两阶段的数据与参数协调优化模型在特定任务上的表现。2102.01293(示例)2021
Data Scaling LawsGoogle Research数据质量与多样性专注于训练数据的重要性,指出数据量增加对小模型提升更显著,同时强调高质量与多样化数据对大模型泛化能力的关键作用。2204.023112022
Lottery Ticket HypothesisJonathan Frankle 与 Michael Carbin参数稀疏性与子网络训练提出在大规模网络中存在可单独训练且表现稳定的子网络(“彩票”),暗示在大模型中并非所有参数都是必要的,从侧面支持减少有效参数以达到高效训练。1803.036352018
Scaling Laws for Multimodal ModelsOpenAI(CLIP团队)多模态数据对齐探讨不同模态数据如何协同优化模型性能,强调各模态间的比例与对齐关系是提升多模态模型效果的关键。2103.000202021
FLOP-Efficiency Scaling LawsNVIDIA & Meta计算资源高效利用注重硬件与算法的协调优化,提出通过混合精度、稀疏矩阵运算等技术,在固定 FLOPs 下提升模型训练与推理的资源效率。2205.141352022
Emergent Scaling LawsAnthropic临界规模下的能力涌现研究当模型规模增大超过某个临界值时,突然涌现出复杂能力(如推理、编程等),强调了超大规模模型在特定临界点后的能力突变现象。2206.07682«Emergent Abilities of Large Language Models》

Chinchilla 理论曲线

该理论是由 DeepMind 在 2022 年提出的一种关于 大规模语言模型(LLMs)训练效率的理论框架,它解决了早期 LLM 中普遍存在的 参数规模和训练数据量不平衡 的问题。简单来说,这个理论为 LLM 的 参数数量、训练数据量(tokens)和计算资源(FLOPs) 提供了一个优化指导,帮助模型在相同计算预算下实现更高效的性能

📅 0001-01-01 ⏱️ 14 分钟 📝 6959 字

世界生成统一评估基准:WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准,专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态 …

世界生成统一评估基准:WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准,专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态性评估方面的空白,对 AI 业界的贡献具有以下几个关键点:

📅 0001-01-01 ⏱️ 4 分钟 📝 1776 字

特性描述
可用性Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所 …

特性描述
可用性Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所有用户开放。立即在自动模式下推出,并可以在模型选择器中明确选择“Grok 4.1”。
改进点在创意、情感和协作互动方面表现出色;对细微意图更加敏感;对话更具吸引力;个性更加一致,同时完全保留了前代产品的敏锐智能与可靠性。
技术进步使用了与Grok 4相同的大型强化学习基础设施来优化模型的风格、个性、帮助性和一致性。开发了新方法,允许使用前沿代理推理模型作为奖励模型,以自主地大规模评估和迭代响应。
静默部署从2025年11月1日至14日,逐步向越来越多的生产流量推出了初步的Grok 4.1版本。期间进行了连续的盲配对评估。
用户偏好相比之前的生产模型,在流量中的偏好率为64.78%。
通用能力在盲人偏好评估中设定了新的标准。
LMArena Text Leaderboard表现思考模式(代号:quasarflux)排名第一,得分为1483 Elo;非思考模式(代号:tensor)排名第二,得分为1465 Elo。
情商在EQ-Bench3测试中展示了卓越的情感智能能力,包括理解力、洞察力、同理心及人际交往技巧。
创造性写作在Creative Writing v3基准测试中取得了高分,证明了其在创作性内容生成方面的强大能力。
减少幻觉现象通过专注于减少信息查询提示中的事实错误,显著降低了快速(非推理)模型的幻觉率。
📅 0001-01-01 ⏱️ 2 分钟 📝 573 字

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者(Multi-agent)应用的强大框架,它作为 LangChain 生态的关键 …

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者(Multi-agent)应用的强大框架,它作为 LangChain 生态的关键扩展,为复杂的 AI 工作流提供了图计算的能力。

📅 0001-01-01 ⏱️ 14 分钟 📝 5316 字

Open-AutoGLM

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架,旨在通过多模态技术理解手机屏幕内容,并结合自动化操作帮助用户完成各类任务。它通过 ADB(Android Debug Bridge)控制设备,使用视觉语言模型进 …

Open-AutoGLM

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架,旨在通过多模态技术理解手机屏幕内容,并结合自动化操作帮助用户完成各类任务。它通过 ADB(Android Debug Bridge)控制设备,使用视觉语言模型进行屏幕感知,并结合智能规划能力生成并执行操作。用户只需用自然语言描述需求,系统即可解析意图并完成任务,如“打开小红书搜索美食”等。

📅 0001-01-01 ⏱️ 4 分钟 📝 1457 字