📅 0001-01-01

Chatbot 元宝

安装腾讯元宝app，OS 应用，小程序。外网访问：https://llm.hunyuan.tencent.com/#/chat/hy-t1

Chatbot 元宝

安装腾讯元宝app，OS 应用，小程序。外网访问：https://llm.hunyuan.tencent.com/#/chat/hy-t1

📅 0001-01-01 ⏱️ 1 分钟 📝 71 字

Scaling Laws

下面是一张表格，总结了scaling law各种曲线和相关参数之间的关系，有助于对比它们各自的设计理念和重点关注的参数。

2. Chinchilla 理论曲线

订正说明：Chinchilla模型 …

Scaling Laws

下面是一张表格，总结了scaling law各种曲线和相关参数之间的关系，有助于对比它们各自的设计理念和重点关注的参数。

2. Chinchilla 理论曲线

订正说明：Chinchilla模型由DeepMind团队在论文《Training Compute-Optimal Large Language Models》中提出，发表于2022年，论文ID为arxiv:2203.15556。
更正后信息：
- 论文ID：2203.15556
- 发表时间：2022

3. Deep Scaling Laws

订正说明：该理论通常与OpenAI的缩放定律研究相关，但表格中的描述更接近Chinchilla的结论。若特指参数、数据、计算复杂度三者的联合优化，可能对应论文《Scaling Laws for Neural Language Models》（2020年，ID:2001.08361）。
更正后信息：
- 论文ID：2001.08361
- 发表时间：2020

5. Scaling Laws for Transfer Learning

订正说明：该领域的研究分散，但Google与OpenAI合作的论文《Scaling Laws for Transfer》发表于2021年，ID为arxiv:2102.01293（需核实具体内容是否匹配）。
更正后信息：
- 论文ID：2102.01293（示例，需进一步验证）
- 发表时间：2021

6. Data Scaling Laws

订正说明：Google的PaLM项目相关论文《PaLM: Scaling Language Modeling with Pathways》发表于2022年，ID为arxiv:2204.02311。
更正后信息：
- 论文ID：2204.02311
- 发表时间：2022

7. Lottery Ticket Hypothesis

订正说明：原始论文由Frankle & Carbin于2018年发表，ID为arxiv:1803.03635，信息准确。
无需更正。

8. Scaling Laws for Multimodal Models

订正说明：OpenAI的CLIP模型论文《Learning Transferable Visual Models From Natural Language Supervision》发表于2021年，ID为arxiv:2103.00020。
更正后信息：
- 论文ID：2103.00020
- 发表时间：2021

9. FLOP-Efficiency Scaling Laws

订正说明：NVIDIA与Meta的联合研究可能指向《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》（2022年，ID:2205.14135）。
更正后信息：
- 论文ID：2205.14135
- 发表时间：2022

10. Emergent Scaling Laws

订正说明：Anthropic团队关于涌现现象的论文《Emergent Abilities of Large Language Models》发表于2022年，ID为arxiv:2206.07682。
更正后信息：
- 论文ID：2206.07682
- 发表时间：2022

修订后表格

理论名称	提出者/研究团队	主要关注参数 / 关系	核心思想及说明	论文ID（arXiv）	发表时间
Kaplan 理论/曲线	OpenAI	参数数量 ≫ 数据量	主张在固定计算量（FLOPs）下优先扩展模型参数。增加模型参数数量能够显著提升性能；因而设计了超大规模模型（例如 GPT-3 的 175B 参数）但训练数据相对较少。	Scaling Laws for Neural Language Models	待确认
Chinchilla 理论曲线	DeepMind	参数与数据平衡	在相同计算预算下，参数数量与训练数据应达到最佳平衡，避免参数过大导致资源浪费；实验表明减少参数并增加数据能够提升泛化能力。	2203.15556	2022
Deep Scaling Laws	OpenAI	参数、数据、计算复杂度	提出了模型性能（Loss）与 [N^{-a} + D^{-b} + C^{-c}] 的幂次关系，强调三者联合优化的重要性。	2001.08361	2020
Optimal Compute Allocation	DeepMind	参数与数据反比配置	研究在固定 FLOPs 下如何分配参数和训练数据，指出应该采用反比配置以充分利用计算资源，成为 Chinchilla 理论形成的基础。	2203.15556	2022
Scaling Laws for Transfer Learning	Google & OpenAI	预训练与微调资源分配	着眼于迁移学习阶段，探讨预训练和微调资源如何协同作用，展示如何通过调整两阶段的数据与参数协调优化模型在特定任务上的表现。	2102.01293（示例）	2021
Data Scaling Laws	Google Research	数据质量与多样性	专注于训练数据的重要性，指出数据量增加对小模型提升更显著，同时强调高质量与多样化数据对大模型泛化能力的关键作用。	2204.02311	2022
Lottery Ticket Hypothesis	Jonathan Frankle 与 Michael Carbin	参数稀疏性与子网络训练	提出在大规模网络中存在可单独训练且表现稳定的子网络（“彩票”），暗示在大模型中并非所有参数都是必要的，从侧面支持减少有效参数以达到高效训练。	1803.03635	2018
Scaling Laws for Multimodal Models	OpenAI（CLIP团队）	多模态数据对齐	探讨不同模态数据如何协同优化模型性能，强调各模态间的比例与对齐关系是提升多模态模型效果的关键。	2103.00020	2021
FLOP-Efficiency Scaling Laws	NVIDIA & Meta	计算资源高效利用	注重硬件与算法的协调优化，提出通过混合精度、稀疏矩阵运算等技术，在固定 FLOPs 下提升模型训练与推理的资源效率。	2205.14135	2022
Emergent Scaling Laws	Anthropic	临界规模下的能力涌现	研究当模型规模增大超过某个临界值时，突然涌现出复杂能力（如推理、编程等），强调了超大规模模型在特定临界点后的能力突变现象。	2206.07682	«Emergent Abilities of Large Language Models》

Chinchilla 理论曲线

该理论是由 DeepMind 在 2022 年提出的一种关于 大规模语言模型（LLMs）训练效率的理论框架，它解决了早期 LLM 中普遍存在的 参数规模和训练数据量不平衡 的问题。简单来说，这个理论为 LLM 的 参数数量、训练数据量（tokens）和计算资源（FLOPs） 提供了一个优化指导，帮助模型在相同计算预算下实现更高效的性能

📅 0001-01-01 ⏱️ 14 分钟 📝 6959 字

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

MIT: The Surprising Effectiveness of …

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

MIT: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

📅 0001-01-01 ⏱️ 1 分钟 📝 19 字

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准，专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态 …

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准，专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态性评估方面的空白，对 AI 业界的贡献具有以下几个关键点：

📅 0001-01-01 ⏱️ 4 分钟 📝 1776 字

特性	描述
可用性	Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所 …

特性	描述
可用性	Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所有用户开放。立即在自动模式下推出，并可以在模型选择器中明确选择“Grok 4.1”。
改进点	在创意、情感和协作互动方面表现出色；对细微意图更加敏感；对话更具吸引力；个性更加一致，同时完全保留了前代产品的敏锐智能与可靠性。
技术进步	使用了与Grok 4相同的大型强化学习基础设施来优化模型的风格、个性、帮助性和一致性。开发了新方法，允许使用前沿代理推理模型作为奖励模型，以自主地大规模评估和迭代响应。
静默部署	从2025年11月1日至14日，逐步向越来越多的生产流量推出了初步的Grok 4.1版本。期间进行了连续的盲配对评估。
用户偏好	相比之前的生产模型，在流量中的偏好率为64.78%。
通用能力	在盲人偏好评估中设定了新的标准。
LMArena Text Leaderboard表现	思考模式（代号：quasarflux）排名第一，得分为1483 Elo；非思考模式（代号：tensor）排名第二，得分为1465 Elo。
情商	在EQ-Bench3测试中展示了卓越的情感智能能力，包括理解力、洞察力、同理心及人际交往技巧。
创造性写作	在Creative Writing v3基准测试中取得了高分，证明了其在创作性内容生成方面的强大能力。
减少幻觉现象	通过专注于减少信息查询提示中的事实错误，显著降低了快速（非推理）模型的幻觉率。

📅 0001-01-01 ⏱️ 2 分钟 📝 573 字

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者（Multi-agent）应用的强大框架，它作为 LangChain 生态的关键 …

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者（Multi-agent）应用的强大框架，它作为 LangChain 生态的关键扩展，为复杂的 AI 工作流提供了图计算的能力。

📅 0001-01-01 ⏱️ 14 分钟 📝 5316 字

Open-AutoGLM

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架，旨在通过多模态技术理解手机屏幕内容，并结合自动化操作帮助用户完成各类任务。它通过 ADB（Android Debug Bridge）控制设备，使用视觉语言模型进 …

Open-AutoGLM

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架，旨在通过多模态技术理解手机屏幕内容，并结合自动化操作帮助用户完成各类任务。它通过 ADB（Android Debug Bridge）控制设备，使用视觉语言模型进行屏幕感知，并结合智能规划能力生成并执行操作。用户只需用自然语言描述需求，系统即可解析意图并完成任务，如“打开小红书搜索美食”等。

📅 0001-01-01 ⏱️ 4 分钟 📝 1457 字

Chatbot 元宝

Chatbot 元宝

Scaling Laws

2. Chinchilla 理论曲线

Scaling Laws

2. Chinchilla 理论曲线

3. Deep Scaling Laws

5. Scaling Laws for Transfer Learning

6. Data Scaling Laws

7. Lottery Ticket Hypothesis

8. Scaling Laws for Multimodal Models

9. FLOP-Efficiency Scaling Laws

10. Emergent Scaling Laws

修订后表格

Chinchilla 理论曲线

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

LangGraph技术底座

LangGraph 技术架构与实现详解

LangGraph技术底座

LangGraph 技术架构与实现详解

Open-AutoGLM

Open-AutoGLM

数字分身