Flasmla
Schnellere LLM -Schlussfolgerin auf dem Hopper -GPUs
Vorgestellt
5 Stimmen



Beschreibung
FlashMla aus Deepseek ist ein effizienter MLA-Dekodierungskern für Hopper-GPUs, der für Sequenzen variabler Länge optimiert ist.Erreicht bis zu 3000 GB/s Speicherbandbreite und 580 Tflops.