Flashmla

    Faster LLM Inference su Hopper GPUS

    In primo piano
    5 Voti
    Flashmla media 1
    Flashmla media 2
    Flashmla media 3

    Descrizione

    FlashMLA, di DeepSeek, è un efficiente kernel di decodifica MLA per GPU Hopper, ottimizzato per sequenze a lunghezza variabile.Raggiunge fino a 3000 GB/s di larghezza di banda di memoria e 580 TFLOP.

    Prodotti consigliati