黄仁勋戳破 TPU 神话: 没了 Anthropic, 就没有增长

热点资讯

近期，黄仁勋在一次播客节目中，被问到 Claude 和 Gemini 都是被谷歌 TPU 训练出来的，是否感到了压力？

黄仁勋却表示，TPU 只能做单一任务，而英伟达却定义了加速计算。看似专用芯片与通用 GPU 之争，其实是生态与单点突破的较量，黄仁勋的底气可能比我们想象的更深厚。

TPU 跑赢矩阵乘法，却输了 AI 未来？

TPU 的设计就是在设计中砍掉冗余架构，从而大幅度提升效率，甚至可以碾压 GPU，以至于谷歌表示，训练顶级 AI 大模型的成本仅为英伟达的一半。

黄仁勋却认为，当前大模型的迭代速度，早就不是依靠算力堆叠能够实现的，像混合 SSM 架构、扩散与自回归融合、MoE 模型并行化等技术，决定行业技术突破的技术，没有通用 GPU 架构根本无法实现。

而且 TPU 的效率优势，仅能应用在谷歌自家的场景。无法进入其他云平台，英伟达 GPU 却覆盖谷歌云、亚马逊云、Azure 所有云平台。当 AI 公司需要在多个平台部署、切换应用场景时，TPU 的封闭性却是致命短板。

CUDA 是英伟达的护城河

质疑者提出，OpenAI 自研 Triton 内核，云厂商押注 ASIC 架构自研芯片。黄仁勋直接用 CUDA 装机已达数亿，从数据中心到机器人端几乎无处不在作为回应。就连 Triton 的后端也集成了英伟达的技术。

这条护城河，给英伟达带来巨大的飞轮效应。数亿的装机量吸引全球大量的开发者为 CUDA 优化框架，可以不断地进增强 CUDA 的兼容性，当然也会吸引大量初创公司。大量的用户使用英伟达的技术，迫使云厂商必须持续购买英伟达的芯片。

谷歌 TPU 再能打，也绕不开一个死结，没有第三方开发者愿意为其开发千奇百怪的算法，也没有中小企业愿意绑定其生态。

黄仁勋更是抛出一个硬核证据，迪伦的 InferenceMAX 基准测试，TPU 和 Trainium 从来不敢参加。暗示所谓的成本优势，是有条件的。

ASIC 利润率比肩英伟达，客户自研纯属无用功

当被问道，头部云厂商能自研内核，即使英伟达的芯片有性价比优势，当他们不再依赖英伟达时，有什么看法？

黄仁勋表示，ASIC 的利润率高达 65%，与我们没什么差别。所谓的换芯片能够省钱，只不过是把钱从我们的口袋，放进了博通的口袋。

黄仁勋解释道，英伟达排除专业团队帮助客户优化技术，可轻松实现 2 倍性能的提升，这是那些自研团队无法做的的。英伟达的优势，不是单纯依靠硬件参数，而是芯片、网络、算法和服务。

客户结构真相：60% 营收来自外部？

英伟达被认为 60 %的营收来自美国五大云厂商，如果云厂商转向自研芯片，英伟达就可能会崩盘。

黄仁勋直接推翻了这种论断。指出来自五大云厂商的营收，绝大多数都是外部的用户在使用，而非这些云厂商自用。

亚马逊云上的英伟达芯片，主要服务于 Anthropic、OpenAI，微软 Azure 的客户遍布全球各个行业，云厂商之所以离不开英伟达，就是英伟达能够给这些云厂商带来最广泛的终端客户群体。

也就是说，你可以选择 TPU 自用，但是想做全球的生意，仍然需要英伟达。

至于 Anthropic 押注 TPU，黄仁勋认为这只是个例而非趋势，因为没有 Anthropic，TPU 就没有增长。他还强调，自研芯片不是一件容易的事，想超过我们更是难上上加难。

事实也是如此，即使 OpenAI 与 AMD 合作，自研泰勒芯片，但是主力依然是英伟达芯片。

黄仁勋的自信，源于英伟达构建的三重壁垒：通用架构支撑算法创新，CUDA 生态锁定全球开发者，TCO 优势绑定客户利益。这是谷歌 TPU 无法复制的。