PANews는 2월 26일 DeepSeek이 OpenSourceWeek 3일차에 DeepGEMM을 출시했다고 보도했습니다. DeepGEMM은 FP8 GEMM을 지원하고 고밀도 행렬 계산과 전문가 혼합(MoE) 아키텍처에 사용할 수 있는 CUDA 라이브러리로, V3/R1 모델의 학습과 추론을 최적화합니다.
DeepGEMM 주요 기능:
• 초고성능: Hopper GPU에서 1350+ FP8 TFLOPS
• 최소 종속성: 무거운 종속성 없음, 튜토리얼과 같은 간단한 코드
• JIT 컴파일: 사전 컴파일 필요 없음, 런타임 시 자동 최적화
• 핵심 코드는 약 300줄에 불과하지만 대부분의 행렬 크기에 대해 전문가가 최적화한 커널보다 성능이 뛰어납니다.
• 고밀도 레이아웃과 2개의 MoE 레이아웃 지원