DeepSeek发布DeepGEMM：高效FP8 GEMM库，优化V3/R1训练与推理

PA一线｜2025-02-26 1:41

PANews 2月26日消息，DeepSeek在其开源周（OpenSourceWeek）第三天推出 DeepGEMM，一个支持 FP8 GEMM 的CUDA库，可用于稠密矩阵计算和混合专家（MoE）架构，优化V3/R1模型的训练和推理。

DeepGEMM 关键特性：

• 超高性能：在Hopper GPU上实现 1350+ FP8 TFLOPS

• 极简依赖：无繁重依赖，代码简洁如教程

• JIT即时编译：无需预编译，运行时自动优化

• 核心代码仅约300行，但在大多数矩阵尺寸下性能超越专家级优化内核

• 支持稠密布局和两种MoE布局

作者：PA一线
本内容只为提供市场信息，不构成投资建议。

精选专题更多