Skip to content

一个研究生用两块300美元的游戏显卡,碾压了全世界顶尖AI实验室

封面图

原文链接:微信公众号 zilingwang

本文讲述深度学习革命的起点——从 Alex Krizhevsky 的 GTX 580 到何恺明的 ResNet,三年时间改写了 AI 历史。

震撼世界的时刻

一个叫 Alex Krizhevsky 的研究生,花了300美元买了两块英伟达 GTX 580 游戏显卡,在自己宿舍里训练了一个模型。

错误率:15.3%第二名:26.2%

直接甩开11个百分点。这不是赢,是屠杀。

更离谱的是——他用的核心技术,是一个被学界嘲笑了20年的"死技术":神经网络


🧠 一个"学术异端",坚守了30年

1980年代,神经网络是AI圈的笑话。

主流学界信奉的是"符号主义"——AI应该像人类一样,用逻辑规则来推理。至于什么"模拟大脑神经元"?异端邪说,不值一提。

但有一个加拿大人不信邪。

他叫 杰弗里·辛顿(Geoffrey Hinton)。从1980年代开始,他就坚信神经网络才是通往真正智能的唯一道路。整整三十年,他拿不到经费、发不出论文、被同行视为"那个搞神经网络的疯子"。

但他没有放弃。

2006年,辛顿终于攻克了神经网络最致命的难题——梯度消失

简单说:神经网络层数越多,训练信号就越微弱,传到最底层时几乎为零,根本学不到东西。辛顿想了一个巧妙的办法:别一次性训练整个深度网络,一层一层地训练,训好一层再往上堆下一层。

这个叫"逐层预训练"的方法,第一次让深度神经网络变得可训练。

💬 一句话总结:辛顿用30年孤独,换来了深度学习的第一块基石。


📸 一个华裔女教授,拍下了全世界

辛顿解决了"怎么学"的问题,但还有一个问题没解决:学什么?

AI需要海量的、标注好的图片数据。但2000年代,最大的公开数据集也就几万张图,训练出来的模型根本不够看。

这时候,另一个关键人物登场了。

李飞飞,斯坦福华裔女教授。她决定做一件疯狂的事:把全世界的物体都拍下来,然后一张一张地标注。

这个项目叫 ImageNet。2009年,李飞飞团队发布了包含 1400万张图片、覆盖2.2万个类别 的 ImageNet 数据集。

为了让这个数据集被学术界重视,她从2010年开始举办 ImageNet 大规模视觉识别挑战赛(ILSVRC),邀请全世界的AI团队来PK。

💬 一句话总结:李飞飞用1400万张照片,给AI准备了全世界最丰富的"教材"。


🎮 一个学生,发现了游戏显卡的秘密

有了辛顿的算法,有了李飞飞的数据集,还缺什么?

算力

训练深度神经网络需要海量的矩阵运算。当时的CPU做这种运算,慢得像乌龟爬。

辛顿的学生 Alex Krizhevsky,是个喜欢打游戏的年轻人。他发现了一个惊人的事实:游戏显卡(GPU)天生就是为矩阵运算设计的。

渲染3D游戏的每一帧,本质上就是大量并行的矩阵乘法——和神经网络的计算模式一模一样。

一块几百美元的游戏显卡,并行计算能力碾压几万美元的CPU。

于是,Alex做了两件事:

  1. 写了一套叫 CUDA 的程序,让神经网络能直接在 GPU 上跑
  2. 花300美元买了两块 GTX 580,在自己的宿舍里开始训练

💬 一句话总结:游戏宅拯救世界。没有显卡,就没有深度学习。


💥 2012年,三张王牌集齐

  • 辛顿的深度网络架构
  • 李飞飞的1400万张标注图片
  • Alex的游戏显卡算力

三张王牌,在2012年10月同时打出。

AlexNet 横空出世

8层神经网络,6000万参数,在两块 GTX 580 上训练了6天。

ImageNet比赛结果:错误率15.3%,第二名26.2%

领先幅度之大,直接改写了比赛规则——第二年,所有参赛队伍全部转向神经网络。

AI的"寒冬十年",在这一天正式结束。

全球疯抢英伟达显卡。Google用4400万美元收购辛顿的公司(当时只有三个人)。Facebook、百度、微软开启AI人才军备竞赛。

💬 一句话总结:2012年10月,人类AI史被一个研究生、两块游戏显卡、一个30年"异端"算法,彻底改写。


📉 乐极生悲:当"更深"不再是答案

AlexNet只有8层。

既然8层就这么猛,那堆到16层、32层、100层呢?

  • 2014年,VGGNet堆到19层,错误率继续下降
  • 同年,GoogleNet堆到22层,效果更好了

所有人都在想:越深越好,没毛病!

然后问题来了。

当网络堆到50层以上时,准确率不仅没上升,反而断崖式下跌

  • 不是过拟合——训练集的准确率也降了
  • 不是数据不够——ImageNet已经是最大的数据集
  • 不是算力不足——显卡一代比一代强

更深的网络,反而表现更差

这完全违反直觉。理论上,深层网络至少不应该比浅层网络差——大不了后面的层什么也不学,直接把输入原样输出就行。

但现实是:神经网络"学不会"恒等映射

每增加一层,信号就被扭曲一次。层数越多,扭曲越严重。到最后,网络连"原封不动传递信息"这种最简单的事都做不到了。

这个现象,后来被称为网络退化


🔍 一个微软亚研的年轻人,盯着这条曲线……

2015年,微软亚洲研究院。

一个叫 何恺明 的年轻人,正盯着这条"先升后降"的准确率曲线发呆。

所有人都看到了同一个现象:网络越深,效果越差 所有人都得出同一个结论:深度有极限,再堆层数没用

但何恺明想的是另一个问题:

如果深层网络的问题是"学不会恒等映射",那为什么不直接给它一条"捷径"?

让信息可以跳过中间的层,直达更深的层。这样,网络最深处的神经元,也能接收到最原始的、未被扭曲的信号。

这个想法,后来被称为残差连接

以这个想法为核心设计的网络,叫 ResNet

它有多猛?

2015年 ImageNet 比赛,ResNet 把网络堆到了 152层——错误率降到 3.57%,首次超越人类识别能力。

何恺明的这篇论文,至今仍是计算机视觉领域被引用次数最多的论文

💬 一句话总结:所有人都看到了"更深会变差",只有何恺明看到了"给它一条捷径"。


🎯 故事还没完……

从 AlexNet 到 ResNet,只用了三年。

三年时间,AI从"8层都训不稳"进化到"152层超越人类"。

  • 辛顿的30年孤独
  • 李飞飞的1400万张照片
  • Alex的两块游戏显卡
  • 何恺明的一条"捷径"

每一个里程碑背后,都是一个颠覆性的想法,和一段不被理解的坚持。

而今天,故事还在继续

Transformer架构把层数堆到了上百层。GPT-3有96层,GPT-4据说超过120层。DeepSeek V3的MoE架构,总参数量6710亿。

当年让何恺明困扰的那个问题——"如何让信息不被扭曲地流向更深处"——至今仍是每一代AI架构师必须回答的终极考题。

下一个"何恺明",正在哪个实验室里盯着某条反常的曲线发呆?


参考资料

  • 原文:微信公众号 zilingwang
  • ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
  • AlexNet 论文:ImageNet Classification with Deep Convolutional Neural Networks (2012)
  • ResNet 论文:Deep Residual Learning for Image Recognition (2015)