Chatbot 元宝
安装腾讯元宝app,OS 应用,小程序。 外网访问:https://llm.hunyuan.tencent.com/#/chat/hy-t1
Chatbot 元宝
安装腾讯元宝app,OS 应用,小程序。 外网访问:https://llm.hunyuan.tencent.com/#/chat/hy-t1
Scaling Laws
下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。
2. Chinchilla 理论曲线
- 订正说明:Chinchilla模型 …
Scaling Laws
下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。
2. Chinchilla 理论曲线
- 订正说明:Chinchilla模型由DeepMind团队在论文《Training Compute-Optimal Large Language Models》中提出,发表于2022年,论文ID为arxiv:2203.15556。
- 更正后信息:
- 论文ID:2203.15556
- 发表时间:2022
3. Deep Scaling Laws
- 订正说明:该理论通常与OpenAI的缩放定律研究相关,但表格中的描述更接近Chinchilla的结论。若特指参数、数据、计算复杂度三者的联合优化,可能对应论文《Scaling Laws for Neural Language Models》(2020年,ID:2001.08361)。
- 更正后信息:
- 论文ID:2001.08361
- 发表时间:2020
5. Scaling Laws for Transfer Learning
- 订正说明:该领域的研究分散,但Google与OpenAI合作的论文《Scaling Laws for Transfer》发表于2021年,ID为arxiv:2102.01293(需核实具体内容是否匹配)。
- 更正后信息:
- 论文ID:2102.01293(示例,需进一步验证)
- 发表时间:2021
6. Data Scaling Laws
- 订正说明:Google的PaLM项目相关论文《PaLM: Scaling Language Modeling with Pathways》发表于2022年,ID为arxiv:2204.02311。
- 更正后信息:
- 论文ID:2204.02311
- 发表时间:2022
7. Lottery Ticket Hypothesis
- 订正说明:原始论文由Frankle & Carbin于2018年发表,ID为arxiv:1803.03635,信息准确。
- 无需更正。
8. Scaling Laws for Multimodal Models
- 订正说明:OpenAI的CLIP模型论文《Learning Transferable Visual Models From Natural Language Supervision》发表于2021年,ID为arxiv:2103.00020。
- 更正后信息:
- 论文ID:2103.00020
- 发表时间:2021
9. FLOP-Efficiency Scaling Laws
- 订正说明:NVIDIA与Meta的联合研究可能指向《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》(2022年,ID:2205.14135)。
- 更正后信息:
- 论文ID:2205.14135
- 发表时间:2022
10. Emergent Scaling Laws
- 订正说明:Anthropic团队关于涌现现象的论文《Emergent Abilities of Large Language Models》发表于2022年,ID为arxiv:2206.07682。
- 更正后信息:
- 论文ID:2206.07682
- 发表时间:2022
修订后表格
| 理论名称 | 提出者/研究团队 | 主要关注参数 / 关系 | 核心思想及说明 | 论文ID(arXiv) | 发表时间 |
|---|---|---|---|---|---|
| Kaplan 理论/曲线 | OpenAI | 参数数量 ≫ 数据量 | 主张在固定计算量(FLOPs)下优先扩展模型参数。增加模型参数数量能够显著提升性能;因而设计了超大规模模型(例如 GPT-3 的 175B 参数)但训练数据相对较少。 | Scaling Laws for Neural Language Models | 待确认 |
| Chinchilla 理论曲线 | DeepMind | 参数与数据平衡 | 在相同计算预算下,参数数量与训练数据应达到最佳平衡,避免参数过大导致资源浪费;实验表明减少参数并增加数据能够提升泛化能力。 | 2203.15556 | 2022 |
| Deep Scaling Laws | OpenAI | 参数、数据、计算复杂度 | 提出了模型性能(Loss)与 [N^{-a} + D^{-b} + C^{-c}] 的幂次关系,强调三者联合优化的重要性。 | 2001.08361 | 2020 |
| Optimal Compute Allocation | DeepMind | 参数与数据反比配置 | 研究在固定 FLOPs 下如何分配参数和训练数据,指出应该采用反比配置以充分利用计算资源,成为 Chinchilla 理论形成的基础。 | 2203.15556 | 2022 |
| Scaling Laws for Transfer Learning | Google & OpenAI | 预训练与微调资源分配 | 着眼于迁移学习阶段,探讨预训练和微调资源如何协同作用,展示如何通过调整两阶段的数据与参数协调优化模型在特定任务上的表现。 | 2102.01293(示例) | 2021 |
| Data Scaling Laws | Google Research | 数据质量与多样性 | 专注于训练数据的重要性,指出数据量增加对小模型提升更显著,同时强调高质量与多样化数据对大模型泛化能力的关键作用。 | 2204.02311 | 2022 |
| Lottery Ticket Hypothesis | Jonathan Frankle 与 Michael Carbin | 参数稀疏性与子网络训练 | 提出在大规模网络中存在可单独训练且表现稳定的子网络(“彩票”),暗示在大模型中并非所有参数都是必要的,从侧面支持减少有效参数以达到高效训练。 | 1803.03635 | 2018 |
| Scaling Laws for Multimodal Models | OpenAI(CLIP团队) | 多模态数据对齐 | 探讨不同模态数据如何协同优化模型性能,强调各模态间的比例与对齐关系是提升多模态模型效果的关键。 | 2103.00020 | 2021 |
| FLOP-Efficiency Scaling Laws | NVIDIA & Meta | 计算资源高效利用 | 注重硬件与算法的协调优化,提出通过混合精度、稀疏矩阵运算等技术,在固定 FLOPs 下提升模型训练与推理的资源效率。 | 2205.14135 | 2022 |
| Emergent Scaling Laws | Anthropic | 临界规模下的能力涌现 | 研究当模型规模增大超过某个临界值时,突然涌现出复杂能力(如推理、编程等),强调了超大规模模型在特定临界点后的能力突变现象。 | 2206.07682 | «Emergent Abilities of Large Language Models》 |
Chinchilla 理论曲线
该理论是由 DeepMind 在 2022 年提出的一种关于 大规模语言模型(LLMs)训练效率的理论框架,它解决了早期 LLM 中普遍存在的 参数规模和训练数据量不平衡 的问题。简单来说,这个理论为 LLM 的 参数数量、训练数据量(tokens)和计算资源(FLOPs) 提供了一个优化指导,帮助模型在相同计算预算下实现更高效的性能
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
世界生成统一评估基准:WorldScore
WorldScore 对 AI 业界的特殊贡献
WorldScore 是首个统一评估基准,专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态 …
| 特性 | 描述 |
|---|---|
| 可用性 | Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所 … |
| 特性 | 描述 |
|---|---|
| 可用性 | Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所有用户开放。立即在自动模式下推出,并可以在模型选择器中明确选择“Grok 4.1”。 |
| 改进点 | 在创意、情感和协作互动方面表现出色;对细微意图更加敏感;对话更具吸引力;个性更加一致,同时完全保留了前代产品的敏锐智能与可靠性。 |
| 技术进步 | 使用了与Grok 4相同的大型强化学习基础设施来优化模型的风格、个性、帮助性和一致性。开发了新方法,允许使用前沿代理推理模型作为奖励模型,以自主地大规模评估和迭代响应。 |
| 静默部署 | 从2025年11月1日至14日,逐步向越来越多的生产流量推出了初步的Grok 4.1版本。期间进行了连续的盲配对评估。 |
| 用户偏好 | 相比之前的生产模型,在流量中的偏好率为64.78%。 |
| 通用能力 | 在盲人偏好评估中设定了新的标准。 |
| LMArena Text Leaderboard表现 | 思考模式(代号:quasarflux)排名第一,得分为1483 Elo;非思考模式(代号:tensor)排名第二,得分为1465 Elo。 |
| 情商 | 在EQ-Bench3测试中展示了卓越的情感智能能力,包括理解力、洞察力、同理心及人际交往技巧。 |
| 创造性写作 | 在Creative Writing v3基准测试中取得了高分,证明了其在创作性内容生成方面的强大能力。 |
| 减少幻觉现象 | 通过专注于减少信息查询提示中的事实错误,显著降低了快速(非推理)模型的幻觉率。 |
LangGraph技术底座
LangGraph 技术架构与实现详解
本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者(Multi-agent)应用的强大框架,它作为 LangChain 生态的关键 …
LangGraph技术底座
LangGraph 技术架构与实现详解
本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者(Multi-agent)应用的强大框架,它作为 LangChain 生态的关键扩展,为复杂的 AI 工作流提供了图计算的能力。
Open-AutoGLM
Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架,旨在通过多模态技术理解手机屏幕内容,并结合自动化操作帮助用户完成各类任务。它通过 ADB(Android Debug Bridge)控制设备,使用视觉语言模型进 …
Open-AutoGLM
Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架,旨在通过多模态技术理解手机屏幕内容,并结合自动化操作帮助用户完成各类任务。它通过 ADB(Android Debug Bridge)控制设备,使用视觉语言模型进行屏幕感知,并结合智能规划能力生成并执行操作。用户只需用自然语言描述需求,系统即可解析意图并完成任务,如“打开小红书搜索美食”等。
