Flashmla
Snellere LLM -gevolgtrekking op Hopper GPU's
Uitgelaten
5 Stemmen



Beschrijving
FlashMLA, van Deepseek, is een efficiënte MLA-decodering van kernel voor hopper GPU's, geoptimaliseerd voor sequenties met variabele lengte.Bereikt maximaal 3000 GB/s geheugenbandbreedte en 580 tflops.