S1は、LLMSのテスト時間スケーリングの簡単なレシピであり、1,000の例と予算の強制を使用して、O1-Previewに匹敵する強力な推論パフォーマンスを達成します。利用可能なオープンソースモデル、データ、およびコード。