FlashMla

호퍼 GPU에 대한 더 빠른 LLM 추론

DeepSeek의 FlashMla는 가변 길이 시퀀스에 최적화 된 Hopper GPU의 효율적인 MLA 디코딩 커널입니다.최대 3000GB/s 메모리 대역폭 및 580 TFLOPS를 달성합니다.