S1
Correspondant à l'O1, avec seulement 1000 exemples
En vedette
2 Votes





Description
S1 est une recette simple pour la mise à l'échelle du temps de test des LLMS, atteignant des performances de raisonnement solides comparables à l'O1-Preview en utilisant seulement 1 000 exemples et forçage budgétaire.Modèle, données et code open source disponibles.