Flashmla

    Inférence LLM plus rapide sur les GPU de trémie

    En vedette
    5 Votes
    Flashmla media 1
    Flashmla media 2
    Flashmla media 3

    Description

    Flashmla, de Deepseek, est un noyau de décodage MLA efficace pour les GPU de trémie, optimisés pour les séquences de longueur variable.Atteint jusqu'à 3000 Go / s de bande passante de mémoire et 580 tflops.

    Produits recommandés