Flashmla

    การอนุมาน LLM ที่เร็วขึ้นบน Hopper GPUs

    เด่น
    5 โหวต
    Flashmla - การอนุมาน LLM ที่เร็วขึ้นบน Hopper GPUs media 1
    Flashmla - การอนุมาน LLM ที่เร็วขึ้นบน Hopper GPUs media 2
    Flashmla - การอนุมาน LLM ที่เร็วขึ้นบน Hopper GPUs media 3

    คำอธิบาย

    Flashmla จาก Deepseek เป็นเคอร์เนลการถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU แบบ Hopper ซึ่งได้รับการปรับให้เหมาะสมสำหรับลำดับความยาวตัวแปรบรรลุแบนด์วิดธ์หน่วยความจำสูงสุด 3000 GB/s และ 580 TFLOPS

    ผลิตภัณฑ์ที่แนะนำ