2026 国产 AI 算力追踪（华为昇腾、寒武纪、摩尔线程...）

jiawen

2026/06/20

2026 年国内 AI 算力国产替代加速，昇腾、寒武纪、摩尔线程形成差异化竞争格局。国产加速卡市占率持续走高，头部云厂商、政企大规模落地自主算力，多款新芯片实现性能突破。三者分别依托全栈生态、云端AI芯片、通用 GPU 优势放量，行业进入技术、业绩、生态同步成熟的规模化自主可控阶段。

华为昇腾 AI 算力芯片

昇腾 960 & 970 系列

芯片	发布时间	FP8算力	FP4算力	显存	显存带宽	互联带宽
910C	2024Q4	800 TFLOPS	-	128GB	3.2 TB/s	784 GB/s
950PR	2026Q1	0.9 PFLOPS	1.8 PFLOPS	128GB	1.6 TB/s	2 TB/s
950DT	2026Q4	1 PFLOPS	2 PFLOPS	144GB	4 TB/s	2 TB/s
960	2027Q4	2 PFLOPS	4 PFLOPS	288GB	9.6 TB/s	2.2 TB/s
970	2028Q4	4 PFLOPS	8 PFLOPS	288GB	14.4 TB/s	4 TB/s

节奏：一年一代、算力翻倍，自研HBM逐步迭代，供应链自主可控。

Atlas 950 SuperPoD，算力规模 8192 卡，预计于 2025 年四季度上市；Atlas 960 SuperPoD ，算力规模 15488 卡，预计 2027 年四季度上市。

超节点在物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理！基于超节点，华为同时发布 全球最强超节点集群，分别是Atlas 950 SuperCluster 和 Atlas 960 SuperCluster，算力规模分别超过 50 万卡和达到 100 万卡，是当之无愧的全世界最强算力集群！

昇腾 950 系列

基于最新的技术路线图，华为在 2025 至 2026 年推出了针对 大模型特征深度细分 的新一代算力芯片

Ascend 950 PR（2026 Q1）：是华为首款面向大模型推理 Prefill 阶段和推荐业务深度优化的芯片，2026年3月正式发布并随 Atlas 350 加速卡上市.

Ascend 950 DT（2026 Q4）：是 950PR 的"高带宽孪生版"，面向大模型训练、推理 Decode 阶段等对内存带宽极度敏感的场景。原计划 2026 年 Q4 发布，现已提前至 2026 年 8 月上线华为云

这两款芯片是华为 2026 年推出的新一代旗舰 AI 芯片，基于第三代达芬奇架构，采用自研HBM内存和灵衢互联系统，代表了国产 AI 芯片从"可用"到"好用"的关键跨越.

华为昇腾 AI 算力芯片

昇腾 960 & 970 系列

芯片

发布时间

FP8算力

FP4算力

显存

显存带宽

互联带宽

910C

2024Q4

800 TFLOPS

128GB

3.2 TB/s

784 GB/s

950PR

2026Q1

0.9 PFLOPS

1.8 PFLOPS

128GB

1.6 TB/s

2 TB/s

950DT

2026Q4

1 PFLOPS

2 PFLOPS

144GB

4 TB/s

2 TB/s

960

2027Q4

2 PFLOPS

4 PFLOPS

288GB

9.6 TB/s

2.2 TB/s

970

2028Q4

4 PFLOPS

8 PFLOPS

288GB

14.4 TB/s

4 TB/s

节奏：一年一代、算力翻倍，自研HBM逐步迭代，供应链自主可控。

Atlas 950 SuperPoD，算力规模 8192 卡，预计于 2025 年四季度上市；Atlas 960 SuperPoD ，算力规模 15488 卡，预计 2027 年四季度上市。

超节点在物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理！基于超节点，华为同时发布 全球最强超节点集群，分别是Atlas 950 SuperCluster 和 Atlas 960 SuperCluster，算力规模分别超过 50 万卡和达到 100 万卡，是当之无愧的全世界最强算力集群！

昇腾 950 系列

基于最新的技术路线图，华为在 2025 至 2026 年推出了针对 大模型特征深度细分 的新一代算力芯片

Ascend 950 PR（2026 Q1）：是华为首款面向大模型推理 Prefill 阶段和推荐业务深度优化的芯片，2026年3月正式发布并随 Atlas 350 加速卡上市.

这两款芯片是华为 2026 年推出的新一代旗舰 AI 芯片，基于第三代达芬奇架构，采用自研HBM内存和灵衢互联系统，代表了国产 AI 芯片从"可用"到"好用"的关键跨越.

规格项	昇腾 950PR	昇腾 950DT
Cube Core 数量	32 / 28	36 / 32 / 28
Vector Core 数量	64 / 56	72 / 64 / 56
MXFP4 总算力	1,784 / 1,561 TFLOPS	2,007 / 1,784 / 1,561 TFLOPS
FP8/HiF8/MXFP8 总算力	919 / 804 TFLOPS	1,034 / 919 / 804 TFLOPS
INT8 总算力	919 / 804 TOPS	1,034 / 919 / 804 TOPS
BF16/FP16 总算力	486 / 425 TFLOPS	547 / 486 / 425 TFLOPS
TF32 总算力	243 / 212 TFLOPS	273 / 243 / 212 TFLOPS
显存容量	128GB / 112GB	144GB / 96GB
显存带宽	1.6 TB/s / 1.4 TB/s	4 TB/s
互联带宽	2 TB/s	2 TB/s
AI CPU	8C16T / 6C12T	8C16T / 6C12T / 4C8T
DVPP 预处理	5760 / 2880 FPS@1080P	5760 / 2880 FPS@1080P
PCIe 协议版本	支持 PCIe 5.0	支持 PCIe 5.0

对比维度	910A	910B	910C
发布时间	2019年8月	2020年后陆续推出	2025年Q1量产
代工厂	台积电 7nm+ EUV	中芯国际 7nm N+1/N+2	中芯国际 7nm N+2
FP16算力	256 TFLOPS	280-414 TFLOPS	750-800 TFLOPS
INT8算力	512 TOPS	512-640 TOPS	1,500-1,600 TOPS
显存	32GB HBM	32-64GB HBM2e	96-128GB HBM2e
显存带宽	1.2 TB/s	400GB/s-1.2TB/s	1.8-3.2 TB/s
互联带宽	240Gbps HCCS	90GB/s HCCS	784GB/s HCCS + 392GB/s UB
功耗	310-350W	300-400W	310-600W
对标英伟达	V100级别	A100（40GB）级别	H100的80%
核心变化	初代达芬奇架构	国产工艺替代	双Die系统级创新
量产状态	已停产（绝版）	大规模量产中	大规模量产中

对比维度	昇腾310	昇腾310B4	昇腾310B1	昇腾310P
发布时间	2018年	2021-2023年	2021-2023年	2022年后
制程	台积电12nm	推测国产12nm级	推测国产12nm级	推测国产12nm级
FP16算力	8 TFLOPS	4 TFLOPS	10 TFLOPS	8 TFLOPS
INT8算力	16 TOPS	8 TOPS	20 TOPS	22 TOPS
功耗	8W	8-10W	~30W	8W
CPU	8×A55	4×TaiShan V200M	4×TaiShan V200M	未明确
ISP/GPU	无	无	4路ISP + Mali G52	无
视频解码	基础能力	16路1080P	32-40路1080P	基础能力
定位	通用边缘推理	极致低功耗	高性能多媒体	增强推理
供应链	台积电代工	全国产化	全国产化	全国产化

场景	具体应用	优势
智能安防	实时人脸抓拍、车牌识别、行为分析	本地处理，数据不出域，20 路 1080P 并发
工业质检	产线缺陷检测、视觉分拣	低延迟（<100ms），7×24小时稳定运行
智能驾驶	车载感知、MDC平台辅助计算	昇腾 310B 用于华为智驾系统，处理传感器数据
智慧零售	客流统计、热力图分析	单设备续航可达 15 天
教育/创客	AI 智能棋盘、ROS 机器人、自动驾驶单车	稚晖君"自动驾驶单车 "项目使用 310 作为"大脑"
物联网终端	智能摄像头、无人机、可穿戴设备	310 模组仅 7W 功耗，22 TOPS算力

产品	芯片配置	算力	定位
Atlas 200I DK A2	1颗310	22 TOPS INT8	开发者套件，支持鸿蒙OS
Atlas 300I	4颗310	64 TOPS INT8	数据中心推理卡
Atlas 300I Pro	1颗310（增强版）	140 TOPS INT8	轻量级推理卡，24GB LPDDR4X
Atlas 300I Duo	2颗310系列	280 TOPS INT8	双芯片推理卡，48GB LPDDR4X
Atlas 500 A2	1颗310B	20 TOPS INT8	智能小站，边缘场景
Orange Pi AI Studio Pro	多颗310	176-352 TOPS	第三方开发板

2026 国产 AI 算力追踪（华为昇腾、寒武纪、摩尔线程...）

华为昇腾 AI 算力芯片

昇腾 960 & 970 系列

昇腾 950 系列

0条评论

文章目录

华为昇腾 AI 算力芯片

昇腾 960 & 970 系列

昇腾 950 系列

昇腾 910 系列

昇腾 310 系列

寒武纪 AI 算力芯片

寒武纪 MLU 690

寒武纪 MLU 590

寒武纪 MLU370 系列加速卡规格

摩尔线程

天数智芯

四家国产 AI 芯片厂商核心对比

一、核心产品与性能参数对比

二、技术路线与核心差异

三、软件生态对比

四、市场地位与商业化

五、选型总结

文章目录

最热文章

对比维度	思元 590（MLU590）	思元 690（MLU690）
发布时间	2023年发布，2024年量产	2025年测试，2026年初量产
制程	7nm	5nm
FP16算力	256-345 TFLOPS	420-700+ TFLOPS（量产版超700）
INT8算力	512 TOPS	800-1024 TOPS
显存	96GB HBM2e	196GB HBM3
显存带宽	~2 TB/s	~3 TB/s
互联带宽	~400-500 GB/s	~890 GB/s
集群能力	千卡级	万卡级
价格	~6万元	~10-13.5万元
对标英伟达	A100	H100/H20
主要应用	搜广推训练、大模型推理	大语言模型推理、重度训练优化

参数	早期工程样品参数	2026年量产版参数	备注
制程工艺	5nm	5nm	来源：企业价值分析报告
架构设计	双 die 封装	双 die 封装	两颗大核芯片集成
FP16算力	约 420 TFLOPS（2025年Q3工程样片）	超过 700 TFLOPS（2026年初量产版）	早期来源：英媒报道；量产版来源：国盛证券/富途研报
INT8算力	约800 TOPS（双die合计）	1024 TOPS	来源：雪球/企业分析报告
显存	96GB HBM3	196GB HBM3	量产版显存大幅提升
显存带宽	2048 GB/s	3 TB/s（3072 GB/s）	来源：雪球/摩根士丹利对比
互联带宽	约500 GB/s	890 GB/s（MLU-Link）	早期约500GB/s；量产版超890Gbps
最大集群规模	32卡（2025年测试阶段）	万卡级集群扩展率>90%	2026年支持万卡集群
功耗	未明确	未明确	推测在400-500W范围

参数	数据（来源差异）	备注
制程工艺	7nm（中芯国际N+2工艺）	部分报道称采用Chiplet封装
NPU核心数	128 个自研 NPU 核心（每个核心含8个计算单元）	来源：技术分析报告
FP16算力	256-345 TFLOPS	陈云霁主题演讲透露为345 TFLOPS；部分研报写256 TFLOPS
INT8算力	512 TOPS	来源：研报
显存	96GB HBM2e	来源：行业对比表
显存带宽	约2 TB/s（2048 GB/s）	来源：CSDN 对比表
互联技术	MLU-Link，支持8路高速互联	对标 NVLink，用于多卡集群
最大集群规模	16片组成超算节点（早期信息）；实际部署可达千卡级	2024年已适配阿里、字节等千卡集群
功耗	约350W	推测值，参考思元290

参数项	MLU370-X8	MLU370-X4	MLU370-S4/S8
板卡型号	MLU370-X8	MLU370-X4	MLU370-S4/S8
计算架构	Cambricon MLUarch03	Cambricon MLUarch03	Cambricon MLUarch03
制程工艺	7nm	7nm	7nm
计算精度支持	FP32、FP16、BF16、INT16、INT8、INT4	FP32、FP16、BF16、INT16、INT8、INT4	FP32、FP16、BF16、INT16、INT8、INT4
峰值性能 - INT8	256 TOPS	256 TOPS	192 TOPS
峰值性能 - INT16	128 TOPS	128 TOPS	96 TOPS
峰值性能 - FP16	96 TFLOPS	96 TFLOPS	72 TFLOPS
峰值性能 - BF16	96 TFLOPS	96 TFLOPS	72 TFLOPS
峰值性能 - FP32	24 TFLOPS	24 TFLOPS	18 TFLOPS
内存类型	LPDDR5	LPDDR5	LPDDR5
内存容量	48GB	24GB	24GB / 48GB
内存带宽	614.4 GB/s	307.2 GB/s	307.2 GB/s
系统接口	x16 PCIe Gen4	x16 PCIe Gen4	x16 PCIe Gen4
最大热功耗	250W	150W	75W
内存带宽	614.4 GB/s	307.2 GB/s	307.2 GB/s

板卡型号	MTT S5000	MTT S4000	MTT S3000	MTT S2000
计算架构	第四代MUSA「平湖」架构（PH100芯片）	第三代MUSA「曲院」架构（QY102芯片）	第二代MUSA「春晓」架构	第一代MUSA「苏堤」架构
制程工艺	7nm	7nm	12nm	12nm
计算精度支持	FP64、FP32、TF32、FP16、BF16、FP8、INT8、INT4	FP64、FP32、TF32、FP16、BF16、INT8	FP32、FP16、INT8	FP32、FP16、INT8
峰值性能 - INT8	约 1000 TOPS（架构推算值）	200 TOPS（张量）	约61 TOPS（架构推算值）	42.4 TOPS
峰值性能 - INT16	未单独公开	未单独公开	未单独公开	未单独公开
峰值性能 - FP16	约 500 TFLOPS（架构推算值）	100 TFLOPS（张量）	约30.4 TFLOPS（架构推算值）	约20.8 TFLOPS（架构推算值）
峰值性能 - BF16	约 500 TFLOPS（架构推算值）	100 TFLOPS（张量）	未原生支持	未原生支持
峰值性能 - FP32	官方未公开	25 TFLOPS（向量）	15.2 TFLOPS（向量）	10.4 TFLOPS（向量）
内存类型	HBM	GDDR6	GDDR6	GDDR6
内存容量	80GB	48GB	32GB	32GB（可选16GB版本）
内存带宽	1.6 TB/s	768 GB/s	448 GB/s	约224 GB/s（位宽推算值）
系统接口	x16 PCIe Gen5	x16 PCIe Gen5	x16 PCIe Gen5	x16 PCIe Gen3
最大热功耗	官方未公开	450W	250W	150W

厂商	代表产品	制程	核心算力	显存规格	定位	对标英伟达水平
华为昇腾	昇腾 910C（训练）	7nm（中芯 N+2）Chiplet	FP16 352 TFLOPS INT8 1408 TOPS	64GB HBM2e 带宽 2TB/s	云端大模型训练	约 H100 的 70%-80%
	昇腾 950PR（推理）	7nm	FP4 1.56 PFlops FP8 1 PFLOPS	112GB HBM	云端推理优化	约 H20 的 2.87 倍（特定场景）
寒武纪	思元 590	7nm Chiplet	FP16 256 TFLOPS INT8 512 TOPS	96GB HBM2e	云端训推一体	约 A100 的 80%
	思元 370	7nm Chiplet	INT8 256 TOPS	LPDDR5	云端推理/边缘	中高端推理卡
摩尔线程	MTT S5000（智算）	12nm/7nm	FP8 支持，Transformer 性能提升 30%	32GB GDDR6	大模型推理+图形	中高端训推，图形能力领先
	MTT S80（消费级）	12nm	FP16 19.2 TFLOPS	16GB GDDR6	消费级图形+轻量 AI	入门游戏+桌面推理
天数智芯	天垓 100	7nm	FP16 147 TFLOPS INT8 295 TOPS	32GB HBM2 带宽 1.2TB/s	中低端训练+推理	约 A100 的 40%-50%
	智铠 100	12nm	INT8 250 TOPS	8GB GDDR6	边缘/云端推理	入门推理卡，能效比突出

厂商	软件栈	框架适配	CUDA 兼容性	生态完善度
华为昇腾	CANN + MindStudio	MindSpore 原生，PyTorch/TensorFlow 插件适配	弱，需重构迁移	★★★★★（最齐全，工具链闭环）
寒武纪	Neuware + MagicMind	PyTorch/TensorFlow 原生支持	强，迁移成本低	★★★★（AI 场景全覆盖）
摩尔线程	MUSA 统一软件栈	主流 AI 框架全适配，图形 API 支持 DX/OpenGL	中等，兼容层逐步完善	★★★☆（AI+图形双生态）
天数智芯	自研 GPGPU 软件栈	主流框架适配	较强，标准化接口迁移	★★★（聚焦计算场景）