S1

    Übereinstimmende O1-Vorsicht mit nur 1000 Beispielen

    Vorgestellt
    2 Stimmen
    S1 media 1
    S1 media 2
    S1 media 3
    S1 media 4
    S1 media 5

    Beschreibung

    S1 ist ein einfaches Rezept für die Testzeitskalierung von LLMs und erzielt eine starke Argumentation, die mit O1-Präview mit nur 1.000 Beispielen und Budget-Erzwingen vergleichbar ist.Open-Source-Modell, Daten und Code verfügbar.

    Empfohlene Produkte