S1

O1- 프리뷰와 일치하는 것과 1000 개의 예제 만 일치시킵니다

S1은 LLM의 테스트 시간 스케일링을위한 간단한 레시피로, 1,000 예제 및 예산 강제력 만 사용하여 O1- 프리뷰와 비교할 수있는 강력한 추론 성능을 달성합니다.오픈 소스 모델, 데이터 및 코드 사용 가능.