S1

    Combinando O1-Preview com apenas 1000 exemplos

    Apresentou
    2 Votos
    S1 media 1
    S1 media 2
    S1 media 3
    S1 media 4
    S1 media 5

    Descrição

    O S1 é uma receita simples para o escala de LLMs no tempo de teste, alcançando um forte desempenho de raciocínio comparável à pré-revisão de O1, usando apenas 1.000 exemplos e forçamento do orçamento.Modelo, dados e código de código aberto disponíveis.

    Produtos recomendados