FlashMla

    Inferência mais rápida de LLM nas GPUs Hopper

    Apresentou
    5 Votos
    FlashMla media 1
    FlashMla media 2
    FlashMla media 3

    Descrição

    O FlashMla, da Deepseek, é um kernel de decodificação de MLA eficiente para GPUs de Hopper, otimizado para sequências de comprimento variável.Atinge até 3000 GB/s de largura de banda de memória e 580 tflops.

    Produtos recomendados