Flashmla

Inférence LLM plus rapide sur les GPU de trémie

En vedette

5 Votes

Visiter le site web

Description

Flashmla, de Deepseek, est un noyau de décodage MLA efficace pour les GPU de trémie, optimisés pour les séquences de longueur variable.Atteint jusqu'à 3000 Go / s de bande passante de mémoire et 580 tflops.

Catégories

Modèles de langage Clients Git

Étiquettes

Open source Intelligence artificielle Girub Développement

Description

Catégories

Étiquettes

Produits recommandés