Tag: 동적배칭

All the articles with the tag "동적배칭".

vLLM + llama.cpp GPU 모델 서빙 최적화 실전기

1 Dec, 2025

대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.