자체 주최 된 LLM 추론에 대한 GPU 메모리 요구 사항 및 최대 동시 요청을 계산합니다.Llama, Qwen, Deepseek, Mistral 등을 지원합니다.AI 인프라를 효율적으로 계획하십시오.