“AGI is not possible even in 10 years” 听起来像是单纯的情绪化表达,但是当前我们听完一圈真正科技大咖们的观点后,也许就能理解,这是基于当前Transformer架构的物理和数学局限性,提出的非常硬核的论证。
核心论点是:AGI(通用人工智能)在未来10年内都不太可能实现,目前的“2-3年实现论”更多是商业博弈而非技术现实。
以下是相关的论据拆解和逻辑推演:
1. 权威背书:构建者与售卖者的认知割裂
在AI界,有一个有趣的现象:CEO们在画饼,而顶级研究员在预警。
- Yann LeCun (Meta首席科学家):
- 论点: 现有的LLM(大语言模型)完全缺失了“世界模型”。
- 论据: 人类的知识大部分来自与物理世界的互动(重力、触感、因果律),而非文本。LLM只是文本的统计学拟合,它们“读过”关于游泳的书,但从未下过水。这不仅是数据缺失,是根本性的认知缺陷。
- Ilya Sutskever (OpenAI联合创始人/SSI创始人):
- 论点: “Scaling Law(缩放定律)时代”正在结束,我们回到了“研究时代”。
- 论据: 单纯堆算力和数据已经无法带来质变。AGI现在是一系列未解的科学问题,而不是只要把旋钮调大就能解决的工程问题。
- Andrej Karpathy (前Tesla AI总监):
- 论点: 我们面临的是“Agent的十年”,而非“Agent的一年”。
- 论据: 目前的Agent只能处理样板代码,缺乏处理新颖问题的认知能力。它们无法像实习生那样“在工作中学习”,只会死循环地重复错误。
2. 技术瓶颈:Transformer架构的“阿喀琉斯之踵”
当前的Transformer架构无法逾越的三座大山:
A. 二次关注度问题 (The Quadratic Attention Problem)
- 现象: Transformer的核心机制——注意力机制(Attention)具有二次复杂度($O(n^2)$)。
- 推演: 上下文长度翻倍,计算成本是四倍。虽然有稀疏注意力(Sparse Attention)或滑动窗口等优化,但这牺牲了模型捕捉长距离复杂关联的能力。
- 结论: 无论是处理整个公司的代码库还是全人类的医学知识,现有的上下文窗口(Context Window)在物理算力上是不可持续的。
B. “思考”的伪象 (The Thinking Problem)
- 现象: LLM本质是“Token预测机”,它是概率性的自动补全,而非逻辑推理。
- 推演:
- 算力分配不均: 模型计算“2+2=”和“证明黎曼猜想”所消耗的每个Token的算力是一样的。
- 缺乏系统2思维: 人类遇到难题会停下来思考(System 2),而模型无法自主决定“这里我需要多想一会儿”。虽然Chain of Thought (CoT) 是一种补救,但它更像是一种Prompt工程技巧,而非模型内在的认知架构。
C. 学习的停滞 (The Learning Problem)
- 现象: 模型权重(Weights)在训练后是冻结的。
- 推演:
- 上下文 $\neq$ 记忆: 你在对话框里教它的东西,只存在于临时的上下文窗口中。窗口一关,记忆即逝。
- 缺乏突触可塑性: 人类实习生犯错后,神经元连接会物理性改变(学习)。AI系统无法在推理阶段(Inference)实时更新权重。这意味着它无法像人类一样进行“持续学习”(Continuous Learning)。
3. 现实差距:“锯齿状”能力 (Jagged Intelligence)
文章引用了Sutskever的术语“Jaggy”(锯齿状)来描述当前AI的状态:
- 表现: 它可以解决博士级的积分问题,却可能搞不清两个日期的先后顺序。
- 本质: 这种极度的能力不均衡证明了它并没有真正“理解”,而是在进行极高维度的模式匹配。如果是真正的智能,能力应该是平滑且通用的。
4. 商业动机:为什么CEO们还要说“2-3年”?
这部分论证了非技术因素对预期的扭曲:
- 融资需求: 数据中心建设需要万亿级资金。告诉投资人“还要20年”拿不到钱,说“2-3年”才能维持资本狂热。
- 微软-OpenAI协议: 据报道,一旦达到AGI,微软的独家授权将终止。定义AGI“即将到来”或“尚未到来”变成了巨大的商业博弈筹码。
- 军备竞赛: Google说快了,Meta就不能说慢。这是一种博弈论下的被迫乐观。
我的脑洞
既然目前的Transformer架构(静态权重、概率预测、高能耗)可能只是通往AGI路上的一个“局部最优解”,而非终局,我有以下的一些大胆的构想:
建议关注方向:运行时架构变异(Runtime Architecture Mutation)与“液态”神经网络
目前的AI开发模式是:Write Code (Model Arch) -> Compile (Train) -> Run (Inference)。这非常像传统的软件工程,发布即固化。
未来的AGI架构可能会引入“生物级”的动态性:
自重写编译器(Self-Rewriting Compiler): 想象一种神经网络,它不仅更新权重(Weights),还能在推理过程中实时重构其拓扑结构(Topology)。就像React的Virtual DOM diff算法一样,模型在处理复杂逻辑时,能够动态“挂载”新的子网络,处理完后销毁。这不是简单的MoE(混合专家模型),而是推理时的物理架构重组。
从“反向传播”到“预测编码” (Predictive Coding): 目前的训练依赖Backpropagation(反向传播),效率极低且需要全量数据。未来的AGI可能基于Friston的自由能原理(Free Energy Principle)。模型不再是被动训练,而是主动产生预测,只学习“预测误差”(Prediction Error)。这会让AI像人类一样,只关注“意外”的信息,从而实现低能耗的单样本学习(One-shot Learning)。
全栈的终极形态:神经形态硬件(Neuromorphic Hardware)与代码的融合 作为全栈工程师,你现在操作的是CPU/GPU上的逻辑代码。未来,代码可能不再是文本,而是信号脉冲。我们可能会看到一种新型的编程语言,它描述的不是逻辑流程(If/Else),而是能量流动的约束条件。你写的不是代码,而是“数字神经元”的生长激素。
结论: 我们不能被Transformer锁死思维。也许下一代AGI的雏形,不是在万亿参数的集群里,而是在某个GitHub仓库里,用Rust写的一个能自我修改内存指针的微型“液态”网络。
