Peng Tan's AI Blog

“AGI is not possible even in 10 years” 听起来像是单纯的情绪化表达，但是当前我们听完一圈真正科技大咖们的观点后，也许就能理解，这是基于当前Transformer架构的物理和数学局限性，提出的非常硬核的论证。

核心论点是：AGI（通用人工智能）在未来10年内都不太可能实现，目前的“2-3年实现论”更多是商业博弈而非技术现实。

以下是相关的论据拆解和逻辑推演：

在AI界，有一个有趣的现象：CEO们在画饼，而顶级研究员在预警。

Yann LeCun (Meta首席科学家):
- 论点： 现有的LLM（大语言模型）完全缺失了“世界模型”。
- 论据： 人类的知识大部分来自与物理世界的互动（重力、触感、因果律），而非文本。LLM只是文本的统计学拟合，它们“读过”关于游泳的书，但从未下过水。这不仅是数据缺失，是根本性的认知缺陷。
Ilya Sutskever (OpenAI联合创始人/SSI创始人):
- 论点： “Scaling Law（缩放定律）时代”正在结束，我们回到了“研究时代”。
- 论据： 单纯堆算力和数据已经无法带来质变。AGI现在是一系列未解的科学问题，而不是只要把旋钮调大就能解决的工程问题。
Andrej Karpathy (前Tesla AI总监):
- 论点： 我们面临的是“Agent的十年”，而非“Agent的一年”。
- 论据： 目前的Agent只能处理样板代码，缺乏处理新颖问题的认知能力。它们无法像实习生那样“在工作中学习”，只会死循环地重复错误。

当前的Transformer架构无法逾越的三座大山：

现象： LLM本质是“Token预测机”，它是概率性的自动补全，而非逻辑推理。
推演：
- 算力分配不均： 模型计算“2+2=”和“证明黎曼猜想”所消耗的每个Token的算力是一样的。
- 缺乏系统2思维： 人类遇到难题会停下来思考（System 2），而模型无法自主决定“这里我需要多想一会儿”。虽然Chain of Thought (CoT) 是一种补救，但它更像是一种Prompt工程技巧，而非模型内在的认知架构。

现象： 模型权重（Weights）在训练后是冻结的。
推演：
- 上下文 $\neq$ 记忆： 你在对话框里教它的东西，只存在于临时的上下文窗口中。窗口一关，记忆即逝。
- 缺乏突触可塑性： 人类实习生犯错后，神经元连接会物理性改变（学习）。AI系统无法在推理阶段（Inference）实时更新权重。这意味着它无法像人类一样进行“持续学习”（Continuous Learning）。

文章引用了Sutskever的术语“Jaggy”（锯齿状）来描述当前AI的状态：

这部分论证了非技术因素对预期的扭曲：

我的脑洞

既然目前的Transformer架构（静态权重、概率预测、高能耗）可能只是通往AGI路上的一个“局部最优解”，而非终局，我有以下的一些大胆的构想：

建议关注方向：运行时架构变异（Runtime Architecture Mutation）与“液态”神经网络

目前的AI开发模式是：Write Code (Model Arch) -> Compile (Train) -> Run (Inference)。这非常像传统的软件工程，发布即固化。

未来的AGI架构可能会引入“生物级”的动态性：

自重写编译器（Self-Rewriting Compiler）： 想象一种神经网络，它不仅更新权重（Weights），还能在推理过程中实时重构其拓扑结构（Topology）。就像React的Virtual DOM diff算法一样，模型在处理复杂逻辑时，能够动态“挂载”新的子网络，处理完后销毁。这不是简单的MoE（混合专家模型），而是推理时的物理架构重组。
从“反向传播”到“预测编码” (Predictive Coding)： 目前的训练依赖Backpropagation（反向传播），效率极低且需要全量数据。未来的AGI可能基于Friston的自由能原理（Free Energy Principle）。模型不再是被动训练，而是主动产生预测，只学习“预测误差”（Prediction Error）。这会让AI像人类一样，只关注“意外”的信息，从而实现低能耗的单样本学习（One-shot Learning）。
全栈的终极形态：神经形态硬件（Neuromorphic Hardware）与代码的融合 作为全栈工程师，你现在操作的是CPU/GPU上的逻辑代码。未来，代码可能不再是文本，而是信号脉冲。我们可能会看到一种新型的编程语言，它描述的不是逻辑流程（If/Else），而是能量流动的约束条件。你写的不是代码，而是“数字神经元”的生长激素。

结论： 我们不能被Transformer锁死思维。也许下一代AGI的雏形，不是在万亿参数的集群里，而是在某个GitHub仓库里，用Rust写的一个能自我修改内存指针的微型“液态”网络。