FlashMla

Inferência mais rápida de LLM nas GPUs Hopper

Destaque

5 Votos

Visitar Website

Descrição

O FlashMla, da Deepseek, é um kernel de decodificação de MLA eficiente para GPUs de Hopper, otimizado para sequências de comprimento variável.Atinge até 3000 GB/s de largura de banda de memória e 580 tflops.

Categorias

Modelos de Linguagem Clientes Git

FlashMla

Inferência mais rápida de LLM nas GPUs Hopper

Descrição

Categorias

Tags

Produtos Recomendados