一个研究生用两块300美元的游戏显卡，碾压了全世界顶尖AI实验室

封面图

原文链接：微信公众号 zilingwang
本文讲述深度学习革命的起点——从 Alex Krizhevsky 的 GTX 580 到何恺明的 ResNet，三年时间改写了 AI 历史。

震撼世界的时刻

一个叫 Alex Krizhevsky 的研究生，花了300美元买了两块英伟达 GTX 580 游戏显卡，在自己宿舍里训练了一个模型。

错误率：15.3%第二名：26.2%

直接甩开11个百分点。这不是赢，是屠杀。

更离谱的是——他用的核心技术，是一个被学界嘲笑了20年的"死技术"：神经网络

🧠 一个"学术异端"，坚守了30年

1980年代，神经网络是AI圈的笑话。

主流学界信奉的是"符号主义"——AI应该像人类一样，用逻辑规则来推理。至于什么"模拟大脑神经元"？异端邪说，不值一提。

但有一个加拿大人不信邪。

他叫 杰弗里·辛顿（Geoffrey Hinton）。从1980年代开始，他就坚信神经网络才是通往真正智能的唯一道路。整整三十年，他拿不到经费、发不出论文、被同行视为"那个搞神经网络的疯子"。

但他没有放弃。

2006年，辛顿终于攻克了神经网络最致命的难题——梯度消失。

简单说：神经网络层数越多，训练信号就越微弱，传到最底层时几乎为零，根本学不到东西。辛顿想了一个巧妙的办法：别一次性训练整个深度网络，一层一层地训练，训好一层再往上堆下一层。

这个叫"逐层预训练"的方法，第一次让深度神经网络变得可训练。

💬 一句话总结：辛顿用30年孤独，换来了深度学习的第一块基石。

📸 一个华裔女教授，拍下了全世界

辛顿解决了"怎么学"的问题，但还有一个问题没解决：学什么？

AI需要海量的、标注好的图片数据。但2000年代，最大的公开数据集也就几万张图，训练出来的模型根本不够看。

这时候，另一个关键人物登场了。

李飞飞，斯坦福华裔女教授。她决定做一件疯狂的事：把全世界的物体都拍下来，然后一张一张地标注。

这个项目叫 ImageNet。2009年，李飞飞团队发布了包含 1400万张图片、覆盖2.2万个类别 的 ImageNet 数据集。

为了让这个数据集被学术界重视，她从2010年开始举办 ImageNet 大规模视觉识别挑战赛（ILSVRC），邀请全世界的AI团队来PK。

💬 一句话总结：李飞飞用1400万张照片，给AI准备了全世界最丰富的"教材"。

🎮 一个学生，发现了游戏显卡的秘密

有了辛顿的算法，有了李飞飞的数据集，还缺什么？

算力

训练深度神经网络需要海量的矩阵运算。当时的CPU做这种运算，慢得像乌龟爬。

辛顿的学生 Alex Krizhevsky，是个喜欢打游戏的年轻人。他发现了一个惊人的事实：游戏显卡（GPU）天生就是为矩阵运算设计的。

渲染3D游戏的每一帧，本质上就是大量并行的矩阵乘法——和神经网络的计算模式一模一样。

一块几百美元的游戏显卡，并行计算能力碾压几万美元的CPU。

于是，Alex做了两件事：

写了一套叫 CUDA 的程序，让神经网络能直接在 GPU 上跑
花300美元买了两块 GTX 580，在自己的宿舍里开始训练

💬 一句话总结：游戏宅拯救世界。没有显卡，就没有深度学习。

💥 2012年，三张王牌集齐

辛顿的深度网络架构
李飞飞的1400万张标注图片
Alex的游戏显卡算力

三张王牌，在2012年10月同时打出。

AlexNet 横空出世

8层神经网络，6000万参数，在两块 GTX 580 上训练了6天。

ImageNet比赛结果：错误率15.3%，第二名26.2%

领先幅度之大，直接改写了比赛规则——第二年，所有参赛队伍全部转向神经网络。

AI的"寒冬十年"，在这一天正式结束。

全球疯抢英伟达显卡。Google用4400万美元收购辛顿的公司（当时只有三个人）。Facebook、百度、微软开启AI人才军备竞赛。

💬 一句话总结：2012年10月，人类AI史被一个研究生、两块游戏显卡、一个30年"异端"算法，彻底改写。

📉 乐极生悲：当"更深"不再是答案

AlexNet只有8层。

既然8层就这么猛，那堆到16层、32层、100层呢？

2014年，VGGNet堆到19层，错误率继续下降
同年，GoogleNet堆到22层，效果更好了

所有人都在想：越深越好，没毛病！

然后问题来了。

当网络堆到50层以上时，准确率不仅没上升，反而断崖式下跌。

不是过拟合——训练集的准确率也降了
不是数据不够——ImageNet已经是最大的数据集
不是算力不足——显卡一代比一代强

更深的网络，反而表现更差

这完全违反直觉。理论上，深层网络至少不应该比浅层网络差——大不了后面的层什么也不学，直接把输入原样输出就行。

但现实是：神经网络"学不会"恒等映射

每增加一层，信号就被扭曲一次。层数越多，扭曲越严重。到最后，网络连"原封不动传递信息"这种最简单的事都做不到了。

这个现象，后来被称为网络退化。

🔍 一个微软亚研的年轻人，盯着这条曲线……

2015年，微软亚洲研究院。

一个叫 何恺明 的年轻人，正盯着这条"先升后降"的准确率曲线发呆。

所有人都看到了同一个现象：网络越深，效果越差 所有人都得出同一个结论：深度有极限，再堆层数没用

但何恺明想的是另一个问题：

如果深层网络的问题是"学不会恒等映射"，那为什么不直接给它一条"捷径"？

让信息可以跳过中间的层，直达更深的层。这样，网络最深处的神经元，也能接收到最原始的、未被扭曲的信号。

这个想法，后来被称为残差连接

以这个想法为核心设计的网络，叫 ResNet

它有多猛？

2015年 ImageNet 比赛，ResNet 把网络堆到了 152层——错误率降到 3.57%，首次超越人类识别能力。

何恺明的这篇论文，至今仍是计算机视觉领域被引用次数最多的论文

💬 一句话总结：所有人都看到了"更深会变差"，只有何恺明看到了"给它一条捷径"。

🎯 故事还没完……

从 AlexNet 到 ResNet，只用了三年。

三年时间，AI从"8层都训不稳"进化到"152层超越人类"。

辛顿的30年孤独
李飞飞的1400万张照片
Alex的两块游戏显卡
何恺明的一条"捷径"

每一个里程碑背后，都是一个颠覆性的想法，和一段不被理解的坚持。

而今天，故事还在继续

Transformer架构把层数堆到了上百层。GPT-3有96层，GPT-4据说超过120层。DeepSeek V3的MoE架构，总参数量6710亿。

当年让何恺明困扰的那个问题——"如何让信息不被扭曲地流向更深处"——至今仍是每一代AI架构师必须回答的终极考题。

下一个"何恺明"，正在哪个实验室里盯着某条反常的曲线发呆？

参考资料

原文：微信公众号 zilingwang
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
AlexNet 论文：ImageNet Classification with Deep Convolutional Neural Networks (2012)
ResNet 论文：Deep Residual Learning for Image Recognition (2015)

一个研究生用两块300美元的游戏显卡，碾压了全世界顶尖AI实验室 ​

震撼世界的时刻 ​

🧠 一个"学术异端"，坚守了30年 ​

📸 一个华裔女教授，拍下了全世界 ​

🎮 一个学生，发现了游戏显卡的秘密 ​

💥 2012年，三张王牌集齐 ​

📉 乐极生悲：当"更深"不再是答案 ​

🔍 一个微软亚研的年轻人，盯着这条曲线…… ​

🎯 故事还没完…… ​

参考资料 ​