DeepseekのFlashmlaは、Hopper GPUの効率的なMLAデコードカーネルであり、可変長シーケンス用に最適化されています。最大3000 GB/sのメモリ帯域幅と580 TFLOPSを達成します。