S1
Combinando O1-Preview com apenas 1000 exemplos
Apresentou
2 Votos





Descrição
O S1 é uma receita simples para o escala de LLMs no tempo de teste, alcançando um forte desempenho de raciocínio comparável à pré-revisão de O1, usando apenas 1.000 exemplos e forçamento do orçamento.Modelo, dados e código de código aberto disponíveis.