콘텐츠로 이동

모델 서빙

vLLM, llama.cpp, TGI 등 LLM 서빙 프레임워크 운영과 GPU 리소스 최적화 경험을 다룬다.