FlashMla

    Inferência mais rápida de LLM nas GPUs Hopper

    Destaque
    5 Votos
    Mídia 1 de FlashMla - Inferência mais rápida de LLM nas GPUs Hopper
    Mídia 2 de FlashMla - Inferência mais rápida de LLM nas GPUs Hopper
    Mídia 3 de FlashMla - Inferência mais rápida de LLM nas GPUs Hopper

    Descrição

    O FlashMla, da Deepseek, é um kernel de decodificação de MLA eficiente para GPUs de Hopper, otimizado para sequências de comprimento variável.Atinge até 3000 GB/s de largura de banda de memória e 580 tflops.

    Produtos Recomendados