OpenAI 幕后大神 Scott Gray：凭一手 CUDA Kernel 撑起万亿计算

今日快讯 2025年10月04日 14:51 1 admin

前阵子 X 上有个帖子突然火了，说 OpenAI 每天要跑数万亿次的计算，撑住这一切的居然是一个工程师写的 CUDA Kernel。

评论区里立马炸开了锅，有人猜是这个大佬，有人猜是那个专家，最后翻来覆去比对，大家都觉得这人应该是 OpenAI 的 Scott Gray，后来我去看了眼 OpenAI 官网，还真没猜错，他的介绍里明明白白写着，工作重心就是优化深度网络在 GPU 上的性能。

我之前总觉得 AI 圈里最牛的是那些搞算法、发论文的人，毕竟他们的名字总出现在聚光灯下，但看了 Scott 这事才反应过来，能在底层硬件上玩明白的，才是真的 “隐形大佬”。

为什么一个写 CUDA Kernel 的工程师能让整个 AI 圈都关注？这活儿的门槛真不是一般高，你得同时懂并行计算的理论，知道 GPU 硬件到底是怎么干活的，还得把深度学习算法摸得透透的，这三样凑齐还能融会贯通的人，全球都没几个。

大多数开发者其实就停在应用层，拿现成的工具比如 PyTorch、TensorFlow 调用个 API 就行，不用碰底层，就算是做推理优化的人，也比这轻松点，毕竟他们面对的问题边界更清晰。

但是，Scott 干的事不一样，他要从无到有写能支撑模型训练的 CUDA Kernel，尤其是反向传播那块，难度直接拉满，还得做到比 NVIDIA 官方的 cuDNN 库性能还好。

你想想，这就跟你自己做的菜，比五星级酒店大厨做的还好吃一样，得多厉害才能办到？Scott 也不是那种天生的 “神童” 科学家，他走的路其实挺 “踏实” 的。

他毕业于 UIUC，学的是物理和计算机科学双专业，可能有人不知道，UIUC 的计算机系在并行计算和硬件架构这块特别牛，全美都能排前五，他在那上学的时候，估计就把基础打得特别牢。

2016 年他入职 OpenAI 之前，还在 Nervana 待过，专门搞 GPU 汇编级的内核优化，前 Nervana 的 CEO 还在评论区里说，当年在论坛上发现 Scott，当场就决定把他招进来，还夸他是 “全球最强 GPU 程序员”。

能让老东家这么公开夸，能力肯定差不了

在 Nervana，绕开规则，直接跟 GPU “对话”，Scott 在 Nervana 的时候，正好是深度学习要爆发的前夜，但当时有个大问题，软件框架和底层 GPU 硬件没配合好，效率差得远。

那时候，大多数人都用 NVIDIA 的 CUDA C/C++ 和官方库，比如 cuBLAS、cuDNN，但这些工具一层层抽象下来，把 GPU 的硬件细节都藏起来了，性能也跟着上不去，就像给跑车装了个限速器。

Scott 一看这情况，没想着在现有框架里小修小补，反而自己搞了个叫 maxas 的汇编器，他认为 NVIDIA 官方的汇编器在分配寄存器、调度指令的时候有问题，会浪费性能。

maxas 不一样，它能绕开编译器，让开发者直接写最底层的 SASS 机器码，这就相当于别人都在隔着玻璃指挥 GPU 干活，Scott 直接推门进去，手把手教 GPU 怎么干。

有了 maxas，他还做了个实验，手写了一个 SGEMM 内核，就是单精度通用矩阵乘法，这是神经网络里最核心的计算模块之一，在 GM204 这款 GPU 上跑的时候，效率直接摸到了硬件理论峰值的近百分百，软件几乎没浪费一点性能。

更牛的是，这个内核比 NVIDIA 官方闭源的 cuBLAS 库还快，本来想，这可能就是一次 “灵光一现”，结果他又搞出了 maxDNN。

maxDNN 是针对深度学习里的卷积操作做的优化，他把 maxas 那套底层优化的方法搬了过来，用 128 位纹理加载提升读取速度，用双缓冲策略隐藏内存延迟，还重组数据让内存访问更顺畅。

最后，跑出来的结果，在 AlexNet 模型的卷积层上，maxDNN 的效率特别稳定，反观 cuDNN，效率忽高忽低，差了一大截，在 Overfeat 模型的某个卷积层上，maxDNN 的效率更是冲到了一个很高的数值

这一下就证明了，他这套方法不是偶然管用，而是真的能系统性解决问题。

在 Nervana 的时候，他更多是优化单个算子的性能，到了 OpenAI，他要解决的是更大的问题，模型规模化的瓶颈，当时 OpenAI 提出了 “Scaling Laws”，说模型规模越大，性能越好。

但稠密模型要是一个劲往大了做，计算成本和硬件资源根本扛不住，这样来看，Scott 的工作重心也得跟着调，从 “优化者” 变成了 “赋能者”。

他要做的不再是把单个模块调快，而是开发底层工具，让更高效的稀疏模型架构能跑起来，他和同事一起搞出了块稀疏 GPU 内核，这东西跟之前的非结构化稀疏不一样。

非结构化稀疏是把单个没用的权重删掉，看着参数量少了，但 GPU 计算的时候还是绕不开那些零值，效率没提多少，Scott 的块稀疏是把权重矩阵分成固定大小的块，要是某个块里都是零值，计算的时候就直接 “跳过” 这个块。

他专门为这个写了 GPU 内核，跑起来的速度比处理稠密矩阵的 cuBLAS、处理通用稀疏矩阵的 cuSPARSE 快多了，有了这个技术，OpenAI 的研究员在同样的计算预算下，能做出参数量比以前大很多的模型，比如宽度是普通稠密网络 5 倍的 LSTM 模型。

GPT-3、GPT-4、DALL-E 这些我们现在觉得很牛的模型，背后都有这个技术在撑着，而且 OpenAI 还把这些块稀疏内核开源了，不是自己藏着用。

他不光自己解决了问题，还把方法分享出去，让整个行业都能跟着进步，现在 GitHub 上那个项目已经有上万星标了，Meta、Anthropic 这些公司都借鉴过他的代码做稀疏模型开发。

从 “优化者” 到 “赋能者”，Scott 为啥是 AI 幕后支柱？现在大家一说起 OpenAI，想到的都是那些露脸的高管和算法专家，但像 Scott 这样在底层默默干活的工程师，其实才是 AI 能跑起来的 “基石”。

没有他写的这些 CUDA Kernel，再牛的算法也只能停在纸面上，就像再好的发动机，没有好的传动系统，也跑不起来，Scott 的经历其实也告诉我们，AI 的进步不是靠某一个环节的突破，而是算法、硬件、软件这些环节都得跟上。

而且，不是只有 “神童” 才能在 AI 圈立足，像他这样深耕一个领域，从底层一点点积累，最后也能成为行业的核心力量。

现在很多人都在讨论 AI 多厉害、多智能，但很少有人关注背后这些啃硬骨。头的工程师，他们不怎么出现在聚光灯下，却用一行行代码撑起了整个 AI 体系

以后，AI 要往更大规模、更低成本的方向走，肯定还需要更多像 Scott 这样的人，把底层技术做扎实，毕竟万丈高楼平地起，底层稳了，AI 才能走得更远。

发表评论