Flashmla

Faster LLM Inference su Hopper GPUS

In Evidenza

5 Voti

Visita Sito Web

Descrizione

FlashMLA, di DeepSeek, è un efficiente kernel di decodifica MLA per GPU Hopper, ottimizzato per sequenze a lunghezza variabile.Raggiunge fino a 3000 GB/s di larghezza di banda di memoria e 580 TFLOP.

Categorie

Modelli Linguistici Client Git

Tag

Open source Intelligenza artificiale Girub Sviluppo

Descrizione

Categorie

Tag

Prodotti Consigliati