Flashmla

    Inferencia LLM más rápida en GPU de Hopper

    Featured
    5 Votos
    Flashmla media 1
    Flashmla media 2
    Flashmla media 3

    Descripción

    Flashmla, de Deepseek, es un kernel de decodificación MLA eficiente para GPU de la tolva, optimizado para secuencias de longitud variable.Logra hasta 3000 GB/s ancho de banda de memoria y 580 tflops.

    Productos recomendados