Flashmla
Suy luận nhanh hơn trên GPUS GPUS
Đặc trưng
5 Phiếu bầu



Sự miêu tả
FlashMLA, từ Deepseek, là một hạt nhân giải mã MLA hiệu quả cho GPU phễu, được tối ưu hóa cho các chuỗi có độ dài thay đổi.Đạt được băng thông bộ nhớ lên tới 3000 GB/s và 580 TFLOPS.