FlashMla

    호퍼 GPU에 대한 더 빠른 LLM 추론

    추천
    5 투표
    FlashMla media 1
    FlashMla media 2
    FlashMla media 3

    설명

    DeepSeek의 FlashMla는 가변 길이 시퀀스에 최적화 된 Hopper GPU의 효율적인 MLA 디코딩 커널입니다.최대 3000GB/s 메모리 대역폭 및 580 TFLOPS를 달성합니다.

    권장 제품