DeepSeek에서 V3/R1 학습 및 추론을 최적화하는 효율적인 FP8 GEMM 라이브러리인 DeepGEMM 출시

PA一线｜2025-02-26 1:41

PANews는 2월 26일 DeepSeek이 OpenSourceWeek 3일차에 DeepGEMM을 출시했다고 보도했습니다. DeepGEMM은 FP8 GEMM을 지원하고 고밀도 행렬 계산과 전문가 혼합(MoE) 아키텍처에 사용할 수 있는 CUDA 라이브러리로, V3/R1 모델의 학습과 추론을 최적화합니다.

DeepGEMM 주요 기능:

• 초고성능: Hopper GPU에서 1350+ FP8 TFLOPS

• 최소 종속성: 무거운 종속성 없음, 튜토리얼과 같은 간단한 코드

• JIT 컴파일: 사전 컴파일 필요 없음, 런타임 시 자동 최적화

• 핵심 코드는 약 300줄에 불과하지만 대부분의 행렬 크기에 대해 전문가가 최적화한 커널보다 성능이 뛰어납니다.

• 고밀도 레이아웃과 2개의 MoE 레이아웃 지원

원문 링크