Flashmla

การอนุมาน LLM ที่เร็วขึ้นบน Hopper GPUs

เด่น

5 โหวต

เยี่ยมชมเว็บไซต์

คำอธิบาย

Flashmla จาก Deepseek เป็นเคอร์เนลการถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU แบบ Hopper ซึ่งได้รับการปรับให้เหมาะสมสำหรับลำดับความยาวตัวแปรบรรลุแบนด์วิดธ์หน่วยความจำสูงสุด 3000 GB/s และ 580 TFLOPS

หมวดหมู่

โมเดลภาษาขนาดใหญ่ไคลเอนต์ Git

แท็ก

โอเพ่นซอร์ส ปัญญาประดิษฐ์กูรูบ การพัฒนา

คำอธิบาย

หมวดหมู่

แท็ก

ผลิตภัณฑ์ที่แนะนำ