Flashmla
Inférence LLM plus rapide sur les GPU de trémie
En vedette
5 Votes



Description
Flashmla, de Deepseek, est un noyau de décodage MLA efficace pour les GPU de trémie, optimisés pour les séquences de longueur variable.Atteint jusqu'à 3000 Go / s de bande passante de mémoire et 580 tflops.