flashmla

    更快的llm推断霍珀GPU

    精选
    5 投票
    flashmla - 更快的llm推断霍珀GPU媒体1
    flashmla - 更快的llm推断霍珀GPU媒体2
    flashmla - 更快的llm推断霍珀GPU媒体3

    描述

    来自DeepSeek的FlashMLA是Hopper GPU的有效的MLA解码内核,可针对可变长度序列进行了优化。最多可实现3000 GB/s的内存带宽和580个TFLOPS。

    推荐产品