Tülu3405bは、Tülu3シリーズの最新のものであり、Llama 3.1のようなRivals GPT-4O、およびその他のオープンウェイトポストトレーニングモデルを上回ります。検証可能な報酬(RVLR)からの補強学習を活用すると、405Bパラメーターにスケーリングし、新しいベンチマークを設定します。