QWQ-32B

R1 추론과 일치하지만 20 배 더 작습니다

Alibaba Qwen 팀의 QWQ-32B는 스케일링 강화 학습을 통해 DeepSeek-R1 레벨 추론을 달성하는 새로운 오픈 소스 32B LLM입니다.복잡한 작업을위한 "사고 모드"가 있습니다.