智驾芯片祛魅:蔚来小鹏、特斯拉、英伟达, 5090 能不能装车
2026-4-10
| 2026-4-10
字数 2654阅读时长 7 分钟
beizhu
type
Post
status
Published
date
Apr 10, 2026
slug
summary
围绕"1000+ TOPS、自研 5nm、吊打英伟达"这类宣传,从五个角度讲清楚。
tags
思考
Learn
category
知识区
icon
password
围绕"1000+ TOPS、自研 5nm、吊打英伟达"这类宣传,从五个角度讲清楚。

0. 三个绕不开的前提

① 设计 ≠ 制造 苹果、英伟达、蔚来、小鹏都是 fabless——只画图纸,台积电盖房子。"5nm 自研芯片"指的是设计自研,工艺是台积电的
② NPU/ASIC ≠ GPU
  • NPU(神玑、图灵、特斯拉 FSD):只跑神经网络推理,结构粗暴(乘加阵列 + SRAM)
  • GPU(4090、Thor):图形 + 通用计算 + 训练 + 推理 + 视频编码,是当今最复杂的民用芯片
两者完全不是同一种生物。
③ TOPS 是个会骗人的数字 TOPS 只是理论峰值,且严重依赖精度——同一颗芯片 INT8、FP16、INT4 数字能差 2–4 倍。不报精度的 TOPS 没意义。

1. 宣传里有多少水分

三个套路

套路
实质
精度玩文字游戏
蔚来/小鹏的大数字都是 INT8 口径,FP16/FP32 从不公开
拿上代当对手
对标的是英伟达 Orin(2022 量产),不是最新 Thor(2025,FP4 下 ~2000 TOPS)
算力 ≠ 模型性能
真正决定推理性能的是内存带宽 + 编译器成熟度,国产差距最大恰恰是后者

实际精度对照

蔚来神玑 NX9031
项目
数据
工艺 / CPU
台积电 5nm / 32 核 big-LITTLE,615K DMIPS
内存
LPDDR5x,8533 Mbps
宣传算力
~1000 TOPS(INT8)
FP16 / FP32
未公开
算力来源
254 (Orin INT8) × 4 = 1000+,所以也只能是 INT8
小鹏图灵
项目
数据
工艺 / 架构
7nm + 3D 堆叠 / 40 核 CPU + 2× NPU
内存带宽 / 容量
273 GB/s / 64 GB
宣传算力
~700–750 TOPS(INT8)
FP16 / FP32
未公开
集群
3 颗 ≈ 2200 TOPS(仍是 INT8 累加)
宣传"单颗跑 30B 大模型"——只在极致量化(INT4 或更低)+ 定制算子下成立,不代表通用推理性能。

为什么不公开 FP16/FP32

故意不报。NPU 在 FP16/FP32 上算力一般会暴跌到 INT8 的 1/2–1/4,一旦报出来就会暴露和英伟达 GPU 在通用计算上的真实差距。英伟达 Orin/Thor 的 datasheet 会同时列 INT8 / FP16 / FP32 / 稀疏/密集多组——国产学的是手机 SoC 那套"只报最大数字"的传统。

小结

在车规智驾这个细分场景里,国产新一代芯片确实追上甚至局部超过了英伟达 Orin。这是真进步。但"吊打英伟达""遥遥领先"的宣传,换个口径基本都站不住。

2. 为什么几年就能"自研"出 5NM 芯片

一颗 SoC 的真实组成

模块
通常来源
CPU 核
直接买 ARM IP 授权
GPU 核
买 ARM Mali / Imagination IP
NPU / DSA
车企真正"自研"的部分
内存控制器、PCIe、各类总线
买 IP
后端物理实现
Synopsys / Cadence 的 EDA 工具
流片制造
台积电 5nm/4nm

真相

  1. 大量模块直接买现成 IP,不是从晶体管开始画
  1. 真自研的核心是 NPU 架构——而 NPU 功能极其专一,复杂度比 CPU/GPU 低 1–2 个数量级
  1. 制造完全外包给台积电
  1. 最耗时间的反而是车规验证和认证(AEC-Q100、ISO 26262 ASIL-D)
类比:你"自研"了一台高性能 PC——CPU/内存/SSD/显卡都是别人的,你做的是主板设计、散热、BIOS。算自研,但和"从零造 CPU"不是一回事。
但价值是真实的:自研 NPU + 自家编译器 + 自家模型的协同优化,能效比可以比通用方案高 30–50%——这才是蔚来"有芯有魂"的真实卖点。

3. 业界全景:还有谁在玩

厂商
代表芯片
INT8 算力
工艺
一句话
英伟达
Orin
254 TOPS
7nm
当前车规事实标准
英伟达
Thor
~1000–2000 TOPS
4nm
下一代王者,中国买阉割版
特斯拉
HW4 (AI4)
~500 TOPS
7nm
能效比之王(160W)
特斯拉
HW5 (AI5)
2000–2500 TOPS
3nm
800W,2027 量产,最后一代
华为
昇腾 610
~200 TOPS(稠密)
中芯 7nm
国内市占第三,达芬奇架构自研
地平线
征程 6P
560 TOPS(稀疏)
7nm
国内出货量隐形冠军
Mobileye
EyeQ6 H
34 TOPS
7nm
老牌玩家,黑盒模式被国内抛弃
高通
Snapdragon Ride Flex
~700 TOPS
4nm
智驾 + 座舱合一,欧洲豪华品牌在用
蔚来
神玑 NX9031
1000+(宣传)
5nm
见上
小鹏
图灵
700–750
7nm
见上

几个值得单说的

特斯拉 FSD/AI 系列——这一波自研的鼻祖
  • 2019 年 HW3 就把英伟达踢出了车,主导设计是 Jim Keller、Pete Bannon(后来都去了苹果)
  • TOPS 数字看起来不大但能效比一线:HW4 ≈ 500 TOPS / 160W = 3 TOPS/W
  • HW5 (AI5) 直接干到 800W——已经是工作站级,整车电气和散热要重新设计,这也是它推迟到 2027 的真正原因
  • Dojo 是另一回事:那是数据中心训练超算,不上车,别混淆
华为昇腾 610——被低估的真硬货
  • 达芬奇架构完全自研,不是买的 ARM NPU IP
  • 200 TOPS 是稠密算力(地平线 560 是稀疏算力),稠密 = 同样数字下更顶用
  • 因为制裁只能在中芯国际 7nm 流片,落后台积电 1–2 代,靠架构效率把工艺差距追回来一部分——这是被卡脖子状态下的硬功夫
英伟达 Thor——真正的标杆
  • 同时支持 Transformer 大模型和传统 CNN,FP4–FP32 全精度
  • 中国市场只能买算力被阉割的版本(出口管制)——这正是国内车企必须自研的根本原因之一

4. 为什么不能造 4090/5090,能不能直接装一颗到车上

为什么造不出来:四道墙

墙 1:架构复杂度差一个数量级 GPU 是 25 年连续迭代的产物(GeForce 256 → Blackwell),数千 SM + 复杂调度 + 多级缓存 + 光追 + Tensor Core。NPU 一个百人团队几年能搞,GPU 不行。
墙 2:CUDA 生态——真正的护城河 4090 的硬件可以追(昇腾、寒武纪、MI300 在部分指标上做到过),但没人能在几年内复制 CUDA——18 年累积的编译器、cuDNN、TensorRT、几百万开发者代码、所有 AI 框架的默认后端。智驾 NPU 只跑自家几个固定模型,根本不需要生态——这正是它能"几年做出来"的根本原因。
墙 3:制造工艺和地缘 最先进 4N/3nm 的产能优先级在苹果/英伟达/AMD 手里,国产设计出来也排不上。加上美国出口管制,最先进制程对中国基本切断。
墙 4:商业模式不同 车规芯片自家百万颗消化即可;消费 GPU 要打全球数亿玩家、几千款游戏、几十种驱动栈,还要打赢 AMD。完全不同的工程组织能力。

5090 能不能直接塞进车里

物理上能塞,工程上完全行不通。 四个硬约束:
维度
5090 桌面卡
车载现实
功耗
575W TDP,峰值 650W+,要 1200W 电源
智驾通常 100–300W 预算;装 5090 续航直接掉 30–50 km
散热
4 槽风冷或 360 水冷
车头根本布置不下,且工作温度上限 90°C,沙漠环境直接降频
车规
0–90°C、5–8 年寿命、无功能安全
-40 到 +105°C、15 年寿命、ASIL-B/D、AEC-Q100,一项不满足
接口/软件
PCIe + 显示口 + Windows/Linux 游戏栈
MIPI CSI 摄像头 + CAN/以太网 + QNX 实时系统

但有正确答案

英伟达就是把 5090 砍成 Thor 给车用的——继承 GPU 架构和阉割版 CUDA,砍掉图形单元、加车规封装、加 ASIL 安全岛、把 TDP 控制到 100–250W。代价是同代工艺下算力只有桌面 GPU 的 1/5–1/3
所以正确的问法不是"5090 能不能塞进车里",而是"英伟达把 5090 砍成了 Thor 给车用"。

一句话总结

国产自研:蔚来神玑、小鹏图灵 = 只跑自家模型的专用 NPU,借现成 ARM IP + 台积电 5nm 几年做出来——有真进步,也有真水分(INT8 口径、对标上代、绝口不提能效比) • 业界格局:英伟达 Thor 是事实标准,特斯拉 HW4/AI5 是能效比之王,华为昇腾是国内被低估的真自研,地平线是国内出货冠军,Mobileye 在掉队 • 5090 装车:物理塞得进,工程上四道槛全过不去;正确答案是英伟达把 GPU 砍成了 Thor,代价是算力只剩 1/3 • 本质车规 NPU 是"应用题",消费 GPU 是"奥数题"——前者答对的越来越多,后者全球只有英伟达稳定满分

参考资料

国产车企
特斯拉
业界对比
5090 / GPU 功耗
 
  • 思考
  • Learn
  • 横纵分析法.skills群晖 DSM 6 使用 acme.sh + Let's Encrypt 配置 HTTPS 完整指南
    Loading...