智驾芯片祛魅：蔚来小鹏、特斯拉、英伟达， 5090 能不能装车

beizhu

type

Post

status

Published

date

Apr 10, 2026

slug

summary

围绕"1000+ TOPS、自研 5nm、吊打英伟达"这类宣传，从五个角度讲清楚。

0. 三个绕不开的前提

① 设计 ≠ 制造 苹果、英伟达、蔚来、小鹏都是 fabless——只画图纸，台积电盖房子。"5nm 自研芯片"指的是设计自研，工艺是台积电的。

② NPU/ASIC ≠ GPU

NPU（神玑、图灵、特斯拉 FSD）：只跑神经网络推理，结构粗暴（乘加阵列 + SRAM）

GPU（4090、Thor）：图形 + 通用计算 + 训练 + 推理 + 视频编码，是当今最复杂的民用芯片

两者完全不是同一种生物。

③ TOPS 是个会骗人的数字 TOPS 只是理论峰值，且严重依赖精度——同一颗芯片 INT8、FP16、INT4 数字能差 2–4 倍。不报精度的 TOPS 没意义。

1. 宣传里有多少水分

三个套路

套路	实质
精度玩文字游戏	蔚来/小鹏的大数字都是 INT8 口径，FP16/FP32 从不公开
拿上代当对手	对标的是英伟达 Orin（2022 量产），不是最新 Thor（2025，FP4 下 ~2000 TOPS）
算力 ≠ 模型性能	真正决定推理性能的是内存带宽 + 编译器成熟度，国产差距最大恰恰是后者

实际精度对照

蔚来神玑 NX9031

项目	数据
工艺 / CPU	台积电 5nm / 32 核 big-LITTLE，615K DMIPS
内存	LPDDR5x，8533 Mbps
宣传算力	~1000 TOPS（INT8）
FP16 / FP32	未公开
算力来源	254 (Orin INT8) × 4 = 1000+，所以也只能是 INT8

小鹏图灵

项目	数据
工艺 / 架构	7nm + 3D 堆叠 / 40 核 CPU + 2× NPU
内存带宽 / 容量	273 GB/s / 64 GB
宣传算力	~700–750 TOPS（INT8）
FP16 / FP32	未公开
集群	3 颗 ≈ 2200 TOPS（仍是 INT8 累加）

宣传"单颗跑 30B 大模型"——只在极致量化（INT4 或更低）+ 定制算子下成立，不代表通用推理性能。

为什么不公开 FP16/FP32

故意不报。NPU 在 FP16/FP32 上算力一般会暴跌到 INT8 的 1/2–1/4，一旦报出来就会暴露和英伟达 GPU 在通用计算上的真实差距。英伟达 Orin/Thor 的 datasheet 会同时列 INT8 / FP16 / FP32 / 稀疏/密集多组——国产学的是手机 SoC 那套"只报最大数字"的传统。

小结

在车规智驾这个细分场景里，国产新一代芯片确实追上甚至局部超过了英伟达 Orin。这是真进步。但"吊打英伟达""遥遥领先"的宣传，换个口径基本都站不住。

2. 为什么几年就能"自研"出 5NM 芯片

一颗 SoC 的真实组成

模块	通常来源
CPU 核	直接买 ARM IP 授权
GPU 核	买 ARM Mali / Imagination IP
NPU / DSA	车企真正"自研"的部分
内存控制器、PCIe、各类总线	买 IP
后端物理实现	Synopsys / Cadence 的 EDA 工具
流片制造	台积电 5nm/4nm

真相

大量模块直接买现成 IP，不是从晶体管开始画

真自研的核心是 NPU 架构——而 NPU 功能极其专一，复杂度比 CPU/GPU 低 1–2 个数量级

制造完全外包给台积电

最耗时间的反而是车规验证和认证（AEC-Q100、ISO 26262 ASIL-D）

类比：你"自研"了一台高性能 PC——CPU/内存/SSD/显卡都是别人的，你做的是主板设计、散热、BIOS。算自研，但和"从零造 CPU"不是一回事。

但价值是真实的：自研 NPU + 自家编译器 + 自家模型的协同优化，能效比可以比通用方案高 30–50%——这才是蔚来"有芯有魂"的真实卖点。

3. 业界全景：还有谁在玩

厂商	代表芯片	INT8 算力	工艺	一句话
英伟达	Orin	254 TOPS	7nm	当前车规事实标准
英伟达	Thor	~1000–2000 TOPS	4nm	下一代王者，中国买阉割版
特斯拉	HW4 (AI4)	~500 TOPS	7nm	能效比之王（160W）
特斯拉	HW5 (AI5)	2000–2500 TOPS	3nm	800W，2027 量产，最后一代
华为	昇腾 610	~200 TOPS（稠密）	中芯 7nm	国内市占第三，达芬奇架构自研
地平线	征程 6P	560 TOPS（稀疏）	7nm	国内出货量隐形冠军
Mobileye	EyeQ6 H	34 TOPS	7nm	老牌玩家，黑盒模式被国内抛弃
高通	Snapdragon Ride Flex	~700 TOPS	4nm	智驾 + 座舱合一，欧洲豪华品牌在用
蔚来	神玑 NX9031	1000+（宣传）	5nm	见上
小鹏	图灵	700–750	7nm	见上

几个值得单说的

特斯拉 FSD/AI 系列——这一波自研的鼻祖

2019 年 HW3 就把英伟达踢出了车，主导设计是 Jim Keller、Pete Bannon（后来都去了苹果）

TOPS 数字看起来不大但能效比一线：HW4 ≈ 500 TOPS / 160W = 3 TOPS/W

HW5 (AI5) 直接干到 800W——已经是工作站级，整车电气和散热要重新设计，这也是它推迟到 2027 的真正原因

Dojo 是另一回事：那是数据中心训练超算，不上车，别混淆

华为昇腾 610——被低估的真硬货

达芬奇架构完全自研，不是买的 ARM NPU IP

200 TOPS 是稠密算力（地平线 560 是稀疏算力），稠密 = 同样数字下更顶用

因为制裁只能在中芯国际 7nm 流片，落后台积电 1–2 代，靠架构效率把工艺差距追回来一部分——这是被卡脖子状态下的硬功夫

英伟达 Thor——真正的标杆

同时支持 Transformer 大模型和传统 CNN，FP4–FP32 全精度

中国市场只能买算力被阉割的版本（出口管制）——这正是国内车企必须自研的根本原因之一

4. 为什么不能造 4090/5090，能不能直接装一颗到车上

为什么造不出来：四道墙

墙 1：架构复杂度差一个数量级 GPU 是 25 年连续迭代的产物（GeForce 256 → Blackwell），数千 SM + 复杂调度 + 多级缓存 + 光追 + Tensor Core。NPU 一个百人团队几年能搞，GPU 不行。

墙 2：CUDA 生态——真正的护城河 4090 的硬件可以追（昇腾、寒武纪、MI300 在部分指标上做到过），但没人能在几年内复制 CUDA——18 年累积的编译器、cuDNN、TensorRT、几百万开发者代码、所有 AI 框架的默认后端。智驾 NPU 只跑自家几个固定模型，根本不需要生态——这正是它能"几年做出来"的根本原因。

墙 3：制造工艺和地缘 最先进 4N/3nm 的产能优先级在苹果/英伟达/AMD 手里，国产设计出来也排不上。加上美国出口管制，最先进制程对中国基本切断。

墙 4：商业模式不同 车规芯片自家百万颗消化即可；消费 GPU 要打全球数亿玩家、几千款游戏、几十种驱动栈，还要打赢 AMD。完全不同的工程组织能力。

5090 能不能直接塞进车里

物理上能塞，工程上完全行不通。 四个硬约束：

维度	5090 桌面卡	车载现实
功耗	575W TDP，峰值 650W+，要 1200W 电源	智驾通常 100–300W 预算；装 5090 续航直接掉 30–50 km
散热	4 槽风冷或 360 水冷	车头根本布置不下，且工作温度上限 90°C，沙漠环境直接降频
车规	0–90°C、5–8 年寿命、无功能安全	-40 到 +105°C、15 年寿命、ASIL-B/D、AEC-Q100，一项不满足
接口/软件	PCIe + 显示口 + Windows/Linux 游戏栈	MIPI CSI 摄像头 + CAN/以太网 + QNX 实时系统

但有正确答案

英伟达就是把 5090 砍成 Thor 给车用的——继承 GPU 架构和阉割版 CUDA，砍掉图形单元、加车规封装、加 ASIL 安全岛、把 TDP 控制到 100–250W。代价是同代工艺下算力只有桌面 GPU 的 1/5–1/3。

所以正确的问法不是"5090 能不能塞进车里"，而是"英伟达把 5090 砍成了 Thor 给车用"。

一句话总结

• 国产自研：蔚来神玑、小鹏图灵 = 只跑自家模型的专用 NPU，借现成 ARM IP + 台积电 5nm 几年做出来——有真进步，也有真水分（INT8 口径、对标上代、绝口不提能效比） • 业界格局：英伟达 Thor 是事实标准，特斯拉 HW4/AI5 是能效比之王，华为昇腾是国内被低估的真自研，地平线是国内出货冠军，Mobileye 在掉队 • 5090 装车：物理塞得进，工程上四道槛全过不去；正确答案是英伟达把 GPU 砍成了 Thor，代价是算力只剩 1/3 • 本质：车规 NPU 是"应用题"，消费 GPU 是"奥数题"——前者答对的越来越多，后者全球只有英伟达稳定满分