2026 年国内 AI 算力国产替代加速,昇腾、寒武纪、摩尔线程形成差异化竞争格局。国产加速卡市占率持续走高,头部云厂商、政企大规模落地自主算力,多款新芯片实现性能突破。三者分别依托全栈生态、云端AI芯片、通用 GPU 优势放量,行业进入技术、业绩、生态同步成熟的规模化自主可控阶段。
| 芯片 | 发布时间 | FP8算力 | FP4算力 | 显存 | 显存带宽 | 互联带宽 |
|---|---|---|---|---|---|---|
| 910C | 2024Q4 | 800 TFLOPS | - | 128GB | 3.2 TB/s | 784 GB/s |
| 950PR | 2026Q1 | 0.9 PFLOPS | 1.8 PFLOPS | 128GB | 1.6 TB/s | 2 TB/s |
| 950DT | 2026Q4 | 1 PFLOPS | 2 PFLOPS | 144GB | 4 TB/s | 2 TB/s |
| 960 | 2027Q4 | 2 PFLOPS | 4 PFLOPS | 288GB | 9.6 TB/s | 2.2 TB/s |
| 970 | 2028Q4 | 4 PFLOPS | 8 PFLOPS | 288GB | 14.4 TB/s | 4 TB/s |
节奏:一年一代、算力翻倍,自研HBM逐步迭代,供应链自主可控。
Atlas 950 SuperPoD,算力规模 8192 卡,预计于 2025 年四季度上市;Atlas 960 SuperPoD ,算力规模 15488 卡,预计 2027 年四季度上市。
超节点在物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理!基于超节点,华为同时发布 全球最强超节点集群,分别是Atlas 950 SuperCluster 和 Atlas 960 SuperCluster,算力规模分别超过 50 万卡和达到 100 万卡,是当之无愧的全世界最强算力集群!
基于最新的技术路线图,华为在 2025 至 2026 年推出了针对 大模型特征深度细分 的新一代算力芯片
Ascend 950 PR(2026 Q1):是华为首款面向大模型推理 Prefill 阶段和推荐业务深度优化的芯片,2026年3月正式发布并随 Atlas 350 加速卡上市.
Ascend 950 DT(2026 Q4):是 950PR 的"高带宽孪生版",面向大模型训练、推理 Decode 阶段等对内存带宽极度敏感的场景。原计划 2026 年 Q4 发布,现已提前至 2026 年 8 月上线华为云
这两款芯片是华为 2026 年推出的新一代旗舰 AI 芯片,基于第三代达芬奇架构,采用自研HBM内存和灵衢互联系统,代表了国产 AI 芯片从"可用"到"好用"的关键跨越.
| 规格项 | 昇腾 950PR | 昇腾 950DT |
|---|---|---|
| Cube Core 数量 | 32 / 28 | 36 / 32 / 28 |
| Vector Core 数量 | 64 / 56 | 72 / 64 / 56 |
| MXFP4 总算力 | 1,784 / 1,561 TFLOPS | 2,007 / 1,784 / 1,561 TFLOPS |
| FP8/HiF8/MXFP8 总算力 | 919 / 804 TFLOPS | 1,034 / 919 / 804 TFLOPS |
| INT8 总算力 | 919 / 804 TOPS | 1,034 / 919 / 804 TOPS |
| BF16/FP16 总算力 | 486 / 425 TFLOPS | 547 / 486 / 425 TFLOPS |
| TF32 总算力 | 243 / 212 TFLOPS | 273 / 243 / 212 TFLOPS |
| 显存容量 | 128GB / 112GB | 144GB / 96GB |
| 显存带宽 | 1.6 TB/s / 1.4 TB/s | 4 TB/s |
| 互联带宽 | 2 TB/s | 2 TB/s |
| AI CPU | 8C16T / 6C12T | 8C16T / 6C12T / 4C8T |
| DVPP 预处理 | 5760 / 2880 FPS@1080P | 5760 / 2880 FPS@1080P |
| PCIe 协议版本 | 支持 PCIe 5.0 | 支持 PCIe 5.0 |
图片处理子系统(DVPP):在深度学习与视觉计算平台中,输入图像通常以 JPEG 等标准压缩格式传输。如果解码 或预处理性能不足,会成为端到端训练和推理吞吐的主要瓶颈。为此,芯片集成了DVPP(DaVinci Vision Pre-Processing)子系统,通过专用硬件加速器完成图像的解码、预处理与编码,避免数据搬运对 AI Core 和 AI CPU 的计算占用,实现更高能效和更低延时。
Ascend 910A:2019年发布的初代型号,单芯片 FP16 算力达 256 TFLOPS
Ascend 910B:工艺优化版本,显存通常为 64GB HBM2e
Ascend 910C:采用双芯片(双 Die)合封设计,单卡 BF16/FP16 算力跃升至约 752 TFLOPS。主要用于构建华为“超节点”,承载千亿到万亿级大模型的深度训练
三代芯片对比总结
| 对比维度 | 910A | 910B | 910C |
|---|---|---|---|
| 发布时间 | 2019年8月 | 2020年后陆续推出 | 2025年Q1量产 |
| 代工厂 | 台积电 7nm+ EUV | 中芯国际 7nm N+1/N+2 | 中芯国际 7nm N+2 |
| FP16算力 | 256 TFLOPS | 280-414 TFLOPS | 750-800 TFLOPS |
| INT8算力 | 512 TOPS | 512-640 TOPS | 1,500-1,600 TOPS |
| 显存 | 32GB HBM | 32-64GB HBM2e | 96-128GB HBM2e |
| 显存带宽 | 1.2 TB/s | 400GB/s-1.2TB/s | 1.8-3.2 TB/s |
| 互联带宽 | 240Gbps HCCS | 90GB/s HCCS | 784GB/s HCCS + 392GB/s UB |
| 功耗 | 310-350W | 300-400W | 310-600W |
| 对标英伟达 | V100级别 | A100(40GB)级别 | H100的80% |
| 核心变化 | 初代达芬奇架构 | 国产工艺替代 | 双Die系统级创新 |
| 量产状态 | 已停产(绝版) | 大规模量产中 | 大规模量产中 |
参数差异说明:910C的显存容量和带宽在不同来源中存在差异(96GB vs 128GB,1.8TB/s vs 3.2TB/s),这可能与不同板卡配置或超节点架构有关。华为官方在2025年全联接大会上公布的参数为:HBM 128GB、内存带宽3.2TB/s、互联带宽784GB/s.
| 对比维度 | 昇腾310 | 昇腾310B4 | 昇腾310B1 | 昇腾310P |
|---|---|---|---|---|
| 发布时间 | 2018年 | 2021-2023年 | 2021-2023年 | 2022年后 |
| 制程 | 台积电12nm | 推测国产12nm级 | 推测国产12nm级 | 推测国产12nm级 |
| FP16算力 | 8 TFLOPS | 4 TFLOPS | 10 TFLOPS | 8 TFLOPS |
| INT8算力 | 16 TOPS | 8 TOPS | 20 TOPS | 22 TOPS |
| 功耗 | 8W | 8-10W | ~30W | 8W |
| CPU | 8×A55 | 4×TaiShan V200M | 4×TaiShan V200M | 未明确 |
| ISP/GPU | 无 | 无 | 4路ISP + Mali G52 | 无 |
| 视频解码 | 基础能力 | 16路1080P | 32-40路1080P | 基础能力 |
| 定位 | 通用边缘推理 | 极致低功耗 | 高性能多媒体 | 增强推理 |
| 供应链 | 台积电代工 | 全国产化 | 全国产化 | 全国产化 |
对标:英伟达 Jetson 系列、地平线征程系列
昇腾 310 系列主要应用场景:
| 场景 | 具体应用 | 优势 |
|---|---|---|
| 智能安防 | 实时人脸抓拍、车牌识别、行为分析 | 本地处理,数据不出域,20 路 1080P 并发 |
| 工业质检 | 产线缺陷检测、视觉分拣 | 低延迟(<100ms),7×24小时稳定运行 |
| 智能驾驶 | 车载感知、MDC平台辅助计算 | 昇腾 310B 用于华为智驾系统,处理传感器数据 |
| 智慧零售 | 客流统计、热力图分析 | 单设备续航可达 15 天 |
| 教育/创客 | AI 智能棋盘、ROS 机器人、自动驾驶单车 | 稚晖君"自动驾驶单车 "项目使用 310 作为"大脑" |
| 物联网终端 | 智能摄像头、无人机、可穿戴设备 | 310 模组仅 7W 功耗,22 TOPS算力 |
昇腾 310 系列硬件产品形态
| 产品 | 芯片配置 | 算力 | 定位 |
|---|---|---|---|
| Atlas 200I DK A2 | 1颗310 | 22 TOPS INT8 | 开发者套件,支持鸿蒙OS |
| Atlas 300I | 4颗310 | 64 TOPS INT8 | 数据中心推理卡 |
| Atlas 300I Pro | 1颗310(增强版) | 140 TOPS INT8 | 轻量级推理卡,24GB LPDDR4X |
| Atlas 300I Duo | 2颗310系列 | 280 TOPS INT8 | 双芯片推理卡,48GB LPDDR4X |
| Atlas 500 A2 | 1颗310B | 20 TOPS INT8 | 智能小站,边缘场景 |
| Orange Pi AI Studio Pro | 多颗310 | 176-352 TOPS | 第三方开发板 |
| 对比维度 | 思元 590(MLU590) | 思元 690(MLU690) |
|---|---|---|
| 发布时间 | 2023年发布,2024年量产 | 2025年测试,2026年初量产 |
| 制程 | 7nm | 5nm |
| FP16算力 | 256-345 TFLOPS | 420-700+ TFLOPS(量产版超700) |
| INT8算力 | 512 TOPS | 800-1024 TOPS |
| 显存 | 96GB HBM2e | 196GB HBM3 |
| 显存带宽 | ~2 TB/s | ~3 TB/s |
| 互联带宽 | ~400-500 GB/s | ~890 GB/s |
| 集群能力 | 千卡级 | 万卡级 |
| 价格 | ~6万元 | ~10-13.5万元 |
| 对标英伟达 | A100 | H100/H20 |
| 主要应用 | 搜广推训练、大模型推理 | 大语言模型推理、重度训练优化 |
| 参数 | 早期工程样品参数 | 2026年量产版参数 | 备注 |
|---|---|---|---|
| 制程工艺 | 5nm | 5nm | 来源:企业价值分析报告 |
| 架构设计 | 双 die 封装 | 双 die 封装 | 两颗大核芯片集成 |
| FP16算力 | 约 420 TFLOPS(2025年Q3工程样片) | 超过 700 TFLOPS(2026年初量产版) | 早期来源:英媒报道;量产版来源:国盛证券/富途研报 |
| INT8算力 | 约800 TOPS(双die合计) | 1024 TOPS | 来源:雪球/企业分析报告 |
| 显存 | 96GB HBM3 | 196GB HBM3 | 量产版显存大幅提升 |
| 显存带宽 | 2048 GB/s | 3 TB/s(3072 GB/s) | 来源:雪球/摩根士丹利对比 |
| 互联带宽 | 约500 GB/s | 890 GB/s(MLU-Link) | 早期约500GB/s;量产版超890Gbps |
| 最大集群规模 | 32卡(2025年测试阶段) | 万卡级集群扩展率>90% | 2026年支持万卡集群 |
| 功耗 | 未明确 | 未明确 | 推测在400-500W范围 |
市场定位与表现
1》对标产品:量产版 FP16 算力 700+ TFLOPS,接近英伟达 H100 的 80%,与 H20 基本对标但稍弱于 H100
2》与华为昇腾对比:单卡算力约为昇腾 910C(800 TFLOPS)的 70%-82%,集群性能约为其 82%;但在 MoE/稀疏大模型推理场景下,利用率可达 85%+,吞吐量比华为 950PR 高 30-50%(雪球用户声称)
3》核心客户:字节跳动是最大客户,2026 年框架协议采购 20 万颗 MLU690,单颗价格 13.5 万元;字节将采购全部"特供版"(TJD 版)产能,用于豆包大模型推理及后训练
4》量产时间:原计划 2025 年 Q4 量产,实际于 2026 年初实现量产
思元 590 和 690 属于云端高性能 AI 算力芯片,主要对标英伟达的 A100/H100,其客群完全不是普通消费者或散客
思元590 (MLU590):早在 2022 年的世界人工智能大会上,寒武纪董事长陈天石就首次公开透露了在研的思元 590(采用全新 MLUarch05 架构)。2024 年该芯片正式量产,并在 2025 年迎来了在互联网大厂和智算中心规模化落地的元年,部分大模型推理场景下已作为主力替代方案.
| 参数 | 数据(来源差异) | 备注 |
|---|---|---|
| 制程工艺 | 7nm(中芯国际N+2工艺) | 部分报道称采用Chiplet封装 |
| NPU核心数 | 128 个自研 NPU 核心(每个核心含8个计算单元) | 来源:技术分析报告 |
| FP16算力 | 256-345 TFLOPS | 陈云霁主题演讲透露为345 TFLOPS;部分研报写256 TFLOPS |
| INT8算力 | 512 TOPS | 来源:研报 |
| 显存 | 96GB HBM2e | 来源:行业对比表 |
| 显存带宽 | 约2 TB/s(2048 GB/s) | 来源:CSDN 对比表 |
| 互联技术 | MLU-Link,支持8路高速互联 | 对标 NVLink,用于多卡集群 |
| 最大集群规模 | 16片组成超算节点(早期信息);实际部署可达千卡级 | 2024年已适配阿里、字节等千卡集群 |
| 功耗 | 约350W | 推测值,参考思元290 |
市场定位与表现
| 参数项 | MLU370-X8 | MLU370-X4 | MLU370-S4/S8 |
|---|---|---|---|
| 板卡型号 | MLU370-X8 | MLU370-X4 | MLU370-S4/S8 |
| 计算架构 | Cambricon MLUarch03 | Cambricon MLUarch03 | Cambricon MLUarch03 |
| 制程工艺 | 7nm | 7nm | 7nm |
| 计算精度支持 | FP32、FP16、BF16、INT16、INT8、INT4 | FP32、FP16、BF16、INT16、INT8、INT4 | FP32、FP16、BF16、INT16、INT8、INT4 |
| 峰值性能 - INT8 | 256 TOPS | 256 TOPS | 192 TOPS |
| 峰值性能 - INT16 | 128 TOPS | 128 TOPS | 96 TOPS |
| 峰值性能 - FP16 | 96 TFLOPS | 96 TFLOPS | 72 TFLOPS |
| 峰值性能 - BF16 | 96 TFLOPS | 96 TFLOPS | 72 TFLOPS |
| 峰值性能 - FP32 | 24 TFLOPS | 24 TFLOPS | 18 TFLOPS |
| 内存类型 | LPDDR5 | LPDDR5 | LPDDR5 |
| 内存容量 | 48GB | 24GB | 24GB / 48GB |
| 内存带宽 | 614.4 GB/s | 307.2 GB/s | 307.2 GB/s |
| 系统接口 | x16 PCIe Gen4 | x16 PCIe Gen4 | x16 PCIe Gen4 |
| 最大热功耗 | 250W | 150W | 75W |
| 内存带宽 | 614.4 GB/s | 307.2 GB/s | 307.2 GB/s |
智算卡规格
| 板卡型号 | MTT S5000 | MTT S4000 | MTT S3000 | MTT S2000 |
|---|---|---|---|---|
| 计算架构 | 第四代MUSA「平湖」架构(PH100芯片) | 第三代MUSA「曲院」架构(QY102芯片) | 第二代MUSA「春晓」架构 | 第一代MUSA「苏堤」架构 |
| 制程工艺 | 7nm | 7nm | 12nm | 12nm |
| 计算精度支持 | FP64、FP32、TF32、FP16、BF16、FP8、INT8、INT4 | FP64、FP32、TF32、FP16、BF16、INT8 | FP32、FP16、INT8 | FP32、FP16、INT8 |
| 峰值性能 - INT8 | 约 1000 TOPS(架构推算值) | 200 TOPS(张量) | 约61 TOPS(架构推算值) | 42.4 TOPS |
| 峰值性能 - INT16 | 未单独公开 | 未单独公开 | 未单独公开 | 未单独公开 |
| 峰值性能 - FP16 | 约 500 TFLOPS(架构推算值) | 100 TFLOPS(张量) | 约30.4 TFLOPS(架构推算值) | 约20.8 TFLOPS(架构推算值) |
| 峰值性能 - BF16 | 约 500 TFLOPS(架构推算值) | 100 TFLOPS(张量) | 未原生支持 | 未原生支持 |
| 峰值性能 - FP32 | 官方未公开 | 25 TFLOPS(向量) | 15.2 TFLOPS(向量) | 10.4 TFLOPS(向量) |
| 内存类型 | HBM | GDDR6 | GDDR6 | GDDR6 |
| 内存容量 | 80GB | 48GB | 32GB | 32GB(可选16GB版本) |
| 内存带宽 | 1.6 TB/s | 768 GB/s | 448 GB/s | 约224 GB/s(位宽推算值) |
| 系统接口 | x16 PCIe Gen5 | x16 PCIe Gen5 | x16 PCIe Gen5 | x16 PCIe Gen3 |
| 最大热功耗 | 官方未公开 | 450W | 250W | 150W |
补充说明
标注「架构推算值」的参数为基于通用GPU算力比例(INT8≈2×FP16≈4×FP32)的推算结果,非官方公开数据,仅供参考;其中MTT S5000官方仅正式公布 FP8稠密算力1000 TFLOPS,为当前国产GPU单卡算力最高档位,支持硬件级原生FP8加速。 四款产品均为全功能GPU,除AI训推计算外,还集成3D图形渲染、多路视频编解码、硬件虚拟化(SR-IOV)等能力,与寒武纪纯AI加速卡的产品定位存在差异。 数据来源以摩尔线程官网、官方产品规格书为准,制程工艺参考行业公开共识信息。
天数智芯(Shanghai Iluvatar CoreX Semiconductor Co., Ltd.)是中国领先的通用 GPU(GPGPU)芯片及 AI 算力解决方案提供商
天数智芯的产品采用 全自研架构 与 指令集,主要覆盖大模型训练与日常推理两大核心场景:
近期市场有消息指出,字节跳动 正与天数智芯洽谈采购至少 5 万颗 智铠系列 AI 推理芯片,用以支持豆包等大模型应用的日常推理负载
四家厂商技术路线差异显著:华为昇腾、寒武纪主打 专用 AI 加速芯片,聚焦 AI 训推极致性能;摩尔线程是 全功能 GPU,兼顾 AI 计算与图形渲染;天数智芯走 通用 GPGPU 路线,主打高性价比通用计算。
| 厂商 | 代表产品 | 制程 | 核心算力 | 显存规格 | 定位 | 对标英伟达水平 |
|---|---|---|---|---|---|---|
| 华为昇腾 | 昇腾 910C(训练) | 7nm(中芯 N+2)Chiplet | FP16 352 TFLOPS INT8 1408 TOPS | 64GB HBM2e 带宽 2TB/s | 云端大模型训练 | 约 H100 的 70%-80% |
| 昇腾 950PR(推理) | 7nm | FP4 1.56 PFlops FP8 1 PFLOPS | 112GB HBM | 云端推理优化 | 约 H20 的 2.87 倍(特定场景) | |
| 寒武纪 | 思元 590 | 7nm Chiplet | FP16 256 TFLOPS INT8 512 TOPS | 96GB HBM2e | 云端训推一体 | 约 A100 的 80% |
| 思元 370 | 7nm Chiplet | INT8 256 TOPS | LPDDR5 | 云端推理/边缘 | 中高端推理卡 | |
| 摩尔线程 | MTT S5000(智算) | 12nm/7nm | FP8 支持,Transformer 性能提升 30% | 32GB GDDR6 | 大模型推理+图形 | 中高端训推,图形能力领先 |
| MTT S80(消费级) | 12nm | FP16 19.2 TFLOPS | 16GB GDDR6 | 消费级图形+轻量 AI | 入门游戏+桌面推理 | |
| 天数智芯 | 天垓 100 | 7nm | FP16 147 TFLOPS INT8 295 TOPS | 32GB HBM2 带宽 1.2TB/s | 中低端训练+推理 | 约 A100 的 40%-50% |
| 智铠 100 | 12nm | INT8 250 TOPS | 8GB GDDR6 | 边缘/云端推理 | 入门推理卡,能效比突出 |
华为昇腾:全栈式专用 AI 算力龙头
寒武纪:中立第三方 AI 芯片先行者
摩尔线程:国产唯一全功能 GPU
天数智芯:高性价比通用 GPGPU
| 厂商 | 软件栈 | 框架适配 | CUDA 兼容性 | 生态完善度 |
|---|---|---|---|---|
| 华为昇腾 | CANN + MindStudio | MindSpore 原生,PyTorch/TensorFlow 插件适配 | 弱,需重构迁移 | ★★★★★(最齐全,工具链闭环) |
| 寒武纪 | Neuware + MagicMind | PyTorch/TensorFlow 原生支持 | 强,迁移成本低 | ★★★★(AI 场景全覆盖) |
| 摩尔线程 | MUSA 统一软件栈 | 主流 AI 框架全适配,图形 API 支持 DX/OpenGL | 中等,兼容层逐步完善 | ★★★☆(AI+图形双生态) |
| 天数智芯 | 自研 GPGPU 软件栈 | 主流框架适配 | 较强,标准化接口迁移 | ★★★(聚焦计算场景) |
第一梯队:华为昇腾 2025 年出货 81.2 万张,占国产 AI 加速卡 49%份额,稳居国产第一。客户覆盖政企、运营商、互联网大厂,是国内智算中心的主流选型,生态壁垒最高。
第二梯队:寒武纪、摩尔线程
第三梯队:天数智芯 聚焦行业客户与中低端算力场景,在安防、金融、工业推理领域落地较多;2026 年传出字节跳动采购智铠系列用于推理业务,正加速进入互联网大厂供应链。