beizhu
type
Post
status
Published
date
Apr 10, 2026
slug
summary
围绕"1000+ TOPS、自研 5nm、吊打英伟达"这类宣传,从五个角度讲清楚。
tags
思考
Learn
category
知识区
icon
password
围绕"1000+ TOPS、自研 5nm、吊打英伟达"这类宣传,从五个角度讲清楚。
0. 三个绕不开的前提
① 设计 ≠ 制造
苹果、英伟达、蔚来、小鹏都是 fabless——只画图纸,台积电盖房子。"5nm 自研芯片"指的是设计自研,工艺是台积电的。
② NPU/ASIC ≠ GPU
- NPU(神玑、图灵、特斯拉 FSD):只跑神经网络推理,结构粗暴(乘加阵列 + SRAM)
- GPU(4090、Thor):图形 + 通用计算 + 训练 + 推理 + 视频编码,是当今最复杂的民用芯片
两者完全不是同一种生物。
③ TOPS 是个会骗人的数字
TOPS 只是理论峰值,且严重依赖精度——同一颗芯片 INT8、FP16、INT4 数字能差 2–4 倍。不报精度的 TOPS 没意义。
1. 宣传里有多少水分
三个套路
套路 | 实质 |
精度玩文字游戏 | 蔚来/小鹏的大数字都是 INT8 口径,FP16/FP32 从不公开 |
拿上代当对手 | 对标的是英伟达 Orin(2022 量产),不是最新 Thor(2025,FP4 下 ~2000 TOPS) |
算力 ≠ 模型性能 | 真正决定推理性能的是内存带宽 + 编译器成熟度,国产差距最大恰恰是后者 |
实际精度对照
蔚来神玑 NX9031
项目 | 数据 |
工艺 / CPU | 台积电 5nm / 32 核 big-LITTLE,615K DMIPS |
内存 | LPDDR5x,8533 Mbps |
宣传算力 | ~1000 TOPS(INT8) |
FP16 / FP32 | 未公开 |
算力来源 | 254 (Orin INT8) × 4 = 1000+,所以也只能是 INT8 |
小鹏图灵
项目 | 数据 |
工艺 / 架构 | 7nm + 3D 堆叠 / 40 核 CPU + 2× NPU |
内存带宽 / 容量 | 273 GB/s / 64 GB |
宣传算力 | ~700–750 TOPS(INT8) |
FP16 / FP32 | 未公开 |
集群 | 3 颗 ≈ 2200 TOPS(仍是 INT8 累加) |
宣传"单颗跑 30B 大模型"——只在极致量化(INT4 或更低)+ 定制算子下成立,不代表通用推理性能。
为什么不公开 FP16/FP32
故意不报。NPU 在 FP16/FP32 上算力一般会暴跌到 INT8 的 1/2–1/4,一旦报出来就会暴露和英伟达 GPU 在通用计算上的真实差距。英伟达 Orin/Thor 的 datasheet 会同时列 INT8 / FP16 / FP32 / 稀疏/密集多组——国产学的是手机 SoC 那套"只报最大数字"的传统。
小结
在车规智驾这个细分场景里,国产新一代芯片确实追上甚至局部超过了英伟达 Orin。这是真进步。但"吊打英伟达""遥遥领先"的宣传,换个口径基本都站不住。
2. 为什么几年就能"自研"出 5NM 芯片
一颗 SoC 的真实组成
模块 | 通常来源 |
CPU 核 | 直接买 ARM IP 授权 |
GPU 核 | 买 ARM Mali / Imagination IP |
NPU / DSA | 车企真正"自研"的部分 |
内存控制器、PCIe、各类总线 | 买 IP |
后端物理实现 | Synopsys / Cadence 的 EDA 工具 |
流片制造 | 台积电 5nm/4nm |
真相
- 大量模块直接买现成 IP,不是从晶体管开始画
- 真自研的核心是 NPU 架构——而 NPU 功能极其专一,复杂度比 CPU/GPU 低 1–2 个数量级
- 制造完全外包给台积电
- 最耗时间的反而是车规验证和认证(AEC-Q100、ISO 26262 ASIL-D)
类比:你"自研"了一台高性能 PC——CPU/内存/SSD/显卡都是别人的,你做的是主板设计、散热、BIOS。算自研,但和"从零造 CPU"不是一回事。
但价值是真实的:自研 NPU + 自家编译器 + 自家模型的协同优化,能效比可以比通用方案高 30–50%——这才是蔚来"有芯有魂"的真实卖点。
3. 业界全景:还有谁在玩
厂商 | 代表芯片 | INT8 算力 | 工艺 | 一句话 |
英伟达 | Orin | 254 TOPS | 7nm | 当前车规事实标准 |
英伟达 | Thor | ~1000–2000 TOPS | 4nm | 下一代王者,中国买阉割版 |
特斯拉 | HW4 (AI4) | ~500 TOPS | 7nm | 能效比之王(160W) |
特斯拉 | HW5 (AI5) | 2000–2500 TOPS | 3nm | 800W,2027 量产,最后一代 |
华为 | 昇腾 610 | ~200 TOPS(稠密) | 中芯 7nm | 国内市占第三,达芬奇架构自研 |
地平线 | 征程 6P | 560 TOPS(稀疏) | 7nm | 国内出货量隐形冠军 |
Mobileye | EyeQ6 H | 34 TOPS | 7nm | 老牌玩家,黑盒模式被国内抛弃 |
高通 | Snapdragon Ride Flex | ~700 TOPS | 4nm | 智驾 + 座舱合一,欧洲豪华品牌在用 |
蔚来 | 神玑 NX9031 | 1000+(宣传) | 5nm | 见上 |
小鹏 | 图灵 | 700–750 | 7nm | 见上 |
几个值得单说的
特斯拉 FSD/AI 系列——这一波自研的鼻祖
- 2019 年 HW3 就把英伟达踢出了车,主导设计是 Jim Keller、Pete Bannon(后来都去了苹果)
- TOPS 数字看起来不大但能效比一线:HW4 ≈ 500 TOPS / 160W = 3 TOPS/W
- HW5 (AI5) 直接干到 800W——已经是工作站级,整车电气和散热要重新设计,这也是它推迟到 2027 的真正原因
- Dojo 是另一回事:那是数据中心训练超算,不上车,别混淆
华为昇腾 610——被低估的真硬货
- 达芬奇架构完全自研,不是买的 ARM NPU IP
- 200 TOPS 是稠密算力(地平线 560 是稀疏算力),稠密 = 同样数字下更顶用
- 因为制裁只能在中芯国际 7nm 流片,落后台积电 1–2 代,靠架构效率把工艺差距追回来一部分——这是被卡脖子状态下的硬功夫
英伟达 Thor——真正的标杆
- 同时支持 Transformer 大模型和传统 CNN,FP4–FP32 全精度
- 中国市场只能买算力被阉割的版本(出口管制)——这正是国内车企必须自研的根本原因之一
4. 为什么不能造 4090/5090,能不能直接装一颗到车上
为什么造不出来:四道墙
墙 1:架构复杂度差一个数量级
GPU 是 25 年连续迭代的产物(GeForce 256 → Blackwell),数千 SM + 复杂调度 + 多级缓存 + 光追 + Tensor Core。NPU 一个百人团队几年能搞,GPU 不行。
墙 2:CUDA 生态——真正的护城河
4090 的硬件可以追(昇腾、寒武纪、MI300 在部分指标上做到过),但没人能在几年内复制 CUDA——18 年累积的编译器、cuDNN、TensorRT、几百万开发者代码、所有 AI 框架的默认后端。智驾 NPU 只跑自家几个固定模型,根本不需要生态——这正是它能"几年做出来"的根本原因。
墙 3:制造工艺和地缘
最先进 4N/3nm 的产能优先级在苹果/英伟达/AMD 手里,国产设计出来也排不上。加上美国出口管制,最先进制程对中国基本切断。
墙 4:商业模式不同
车规芯片自家百万颗消化即可;消费 GPU 要打全球数亿玩家、几千款游戏、几十种驱动栈,还要打赢 AMD。完全不同的工程组织能力。
5090 能不能直接塞进车里
物理上能塞,工程上完全行不通。 四个硬约束:
维度 | 5090 桌面卡 | 车载现实 |
功耗 | 575W TDP,峰值 650W+,要 1200W 电源 | 智驾通常 100–300W 预算;装 5090 续航直接掉 30–50 km |
散热 | 4 槽风冷或 360 水冷 | 车头根本布置不下,且工作温度上限 90°C,沙漠环境直接降频 |
车规 | 0–90°C、5–8 年寿命、无功能安全 | -40 到 +105°C、15 年寿命、ASIL-B/D、AEC-Q100,一项不满足 |
接口/软件 | PCIe + 显示口 + Windows/Linux 游戏栈 | MIPI CSI 摄像头 + CAN/以太网 + QNX 实时系统 |
但有正确答案
英伟达就是把 5090 砍成 Thor 给车用的——继承 GPU 架构和阉割版 CUDA,砍掉图形单元、加车规封装、加 ASIL 安全岛、把 TDP 控制到 100–250W。代价是同代工艺下算力只有桌面 GPU 的 1/5–1/3。
所以正确的问法不是"5090 能不能塞进车里",而是"英伟达把 5090 砍成了 Thor 给车用"。
一句话总结
• 国产自研:蔚来神玑、小鹏图灵 = 只跑自家模型的专用 NPU,借现成 ARM IP + 台积电 5nm 几年做出来——有真进步,也有真水分(INT8 口径、对标上代、绝口不提能效比) • 业界格局:英伟达 Thor 是事实标准,特斯拉 HW4/AI5 是能效比之王,华为昇腾是国内被低估的真自研,地平线是国内出货冠军,Mobileye 在掉队 • 5090 装车:物理塞得进,工程上四道槛全过不去;正确答案是英伟达把 GPU 砍成了 Thor,代价是算力只剩 1/3 • 本质:车规 NPU 是"应用题",消费 GPU 是"奥数题"——前者答对的越来越多,后者全球只有英伟达稳定满分
参考资料
国产车企
特斯拉
业界对比
5090 / GPU 功耗