DeepSeek V4推理性能分析：NV华为最优 AMD实现100x提升

发布时间：2026年06月14日 18:06来源：百度

明星合成照快科技6月10日消息，作为开源AI大模型的中坚力量，DeepSeek V4的问世不只是多了一个大模型，而是各大AI生态圈的一次考验，谁能率先支持DeepSeek V4谁家的生态就有更大优势。 SemiAnalysis日前发了一篇长文分析了V4的推理性能，对比了目前常见的AI生态圈，包括NVIDIA、华为、AMD及各自的CUDA、ROCm、CANN，以及第三方社区开源的各种方案。综合下来，目前最强、最优的还是NVIDIA的CUDA平台vLLM及SGLang框架，V4发布当天就能Day0支持，哪怕是最新的硬件GB200/300也是开箱可用的水平。华为的昇腾生态在这个问题上也不弱于CUDA，昇腾950DT+CANN框架也是发布当天Day0支持，硬件及软件上都可以做到全栈支持。这两个生态是最优的，要知道以往不论国内外大模型，基本上只有NVIDIA的CUDA生态可以做到Day0全栈支持，显然V4在开发阶段就针对国产AI平台做了适配及优化，这一点也确实做到了。 AMD的硬件及ROCm生态指标都不错，但在V4的Day0支持上拉跨了，MI355X显卡刚开始只能跑FP8，性能很差，但AMD的SGLang团队追赶得极快，26天时间里就把性能提升了100x倍。综合SemiAnalysis的分析来看，NVIDIA的CUDA生态圈肯定还是最稳的，Day0支持毫无悬念，而且还有最新的硬件加持，GB300的Token成本算下来还是很低的。华为的昇腾+CANN生态也能做到NVIDIA那样的Day0支持，这方面也让人刮目相看，也是国产AI平台的一次重大进步，只不过跟NVIDIA相比，国产AI的算力被限制住了，硬件性能目前差距比较大。 AMD这边硬件及软件纸面上都很强，但生态还不够完善也是真的，只不过起点低的好处就是进步空间大，100x性能提升听上去也很带感，就是要看客户喜不喜欢这种风格了。【本文结束】如需转载请务必注明出处：快科技苹果汇为你带来最新鲜的苹果产品新闻提供最新的科学家新闻，精彩的震撼图片 © 1996-2026 SINA Corporation

（责编：吴京）

DeepSeek V4推理性能分析：NV华为最优 AMD实现100x提升

国台办：支持相关主管部门采取中止ECFA部分产品关税减让措施

丹麦女王宣布退位，王储继位，欧洲王室迎来新变化

等春来【图片】

2023大湾区服贸会“横琴元素”亮眼，中医药创新发展成焦点

【LLM】从零开始训练大模型

世俱杯：墨西哥老虎队晋级决赛创造历史

奥飞数据与华为签署合作协议共筑智算新生态

融媒体发布丨赛事“大餐”、健身“礼包”轮番上演！居家也能感受体育的精彩

美国蓝色起源公司完成火箭发射

为加快建设农业强国而努力奋斗——从中央农村工作会议看2024年“三农”工作战略部署