Tülu 3 시리즈의 최신 Tülu 3 405b는 Deepseek-V3, Rivals GPT-4O 및 LLAMA 3.1과 같은 기타 오픈 중량 후 훈련 된 모델보다 성능이 우수합니다.검증 가능한 보상 (RVLR)에서 강화 학습을 활용하여 405b 매개 변수로 확장되어 새로운 벤치 마크를 설정합니다.