Flashmla
Более быстрый вывод LLM на графических процессорах бункера
Показан
5 Голоса



Описание
FlashMLA из DeepSeek является эффективным ядром декодирования MLA для графических процессоров, оптимизированных для последовательностей переменной длины.Достигает до 3000 Гбит/с полосы пропускания памяти и 580 TFLOPS.