S1
Übereinstimmende O1-Vorsicht mit nur 1000 Beispielen
Vorgestellt
2 Stimmen





Beschreibung
S1 ist ein einfaches Rezept für die Testzeitskalierung von LLMs und erzielt eine starke Argumentation, die mit O1-Präview mit nur 1.000 Beispielen und Budget-Erzwingen vergleichbar ist.Open-Source-Modell, Daten und Code verfügbar.