Skip to content
SON BLOG
Go back

vLLM vs LMDeploy vs SGLang: LLM 서빙 프레임워크 3종 벤치마크 비교

Edit page

대형 언어 모델(LLM)은 자연어 처리 분야에서 중요한 돌파구를 만들어냈지만, 고성능 모델일수록 추론 지연과 자원 소모가 큰 것이 현실이다. 특히 모델을 서비스에 배포할 때는 처리 속도, 메모리 효율, 동시 사용자 대응 능력이 핵심 고려 요소이다. 본 글에서는 이러한 문제를 해결하기 위해 개발된 세 가지 오픈소스 프레임워크인 vLLM, LMDeploy, SGLang을 다양한 관점에서 비교하고, 벤치마크 결과를 기반으로 장단점을 분석하고자 한다.

1. 배경: 추론 병목의 근본 원인

LLM이 사용하는 핵심 알고리즘인 Attention은 이전보다 긴 컨텍스트를 다룰 수 있게 해주지만, 동시에 매우 많은 연산과 메모리 캐싱을 요구한다. 특히 디코딩 단계에서 사용하는 Key-Value(KV) 캐시는 연속적인 요청 처리에서 큰 병목이 되며, 캐시를 효율적으로 관리하지 않으면 응답 속도가 크게 느려진다.

기존 해결 방식으로는 FP16, INT8, 4-bit 양자화 같은 저정밀 연산 또는 고성능 GPU 사용이 있었으나, 이는 근본적인 알고리즘 병목을 해결하지는 못한다. 이에 따라 최근에는 KV 캐시 관리 최적화, GPU 커널 성능 개선, 동적 배치 처리 등의 근본적 접근이 주목받고 있다.

2. 프레임워크 개요

vLLM

LMDeploy

SGLang

3. 벤치마크 환경 및 테스트 조건

4. 벤치마크 결과 분석

단일 요청 (Concurrent=1)

TTFT (첫 토큰 생성 속도)

Throughput

100개 요청 동시 처리 (Concurrent=100)

TTFT

Throughput

5. 종합 결론

항목vLLMLMDeploySGLang
TTFT (단일 요청)평균 수준느림가장 빠름
TTFT (동시 요청)안정적빠름모델에 따라 편차 존재
Throughput낮음일관되게 높음특정 모델에서 최고 성능
구조화 출력 지원미지원미지원지원 (JSON 등)
멀티턴 캐시 최적화미지원제한적RadixAttention 지원
시스템 통합 난이도낮음중간높음 (DSL 기반)

6. 추천 가이드

상황적합한 프레임워크
단일턴 대량 생성, 대규모 배포LMDeploy
다양한 플랫폼 통합, 빠른 배포vLLM
멀티턴 챗봇, 구조화 응답이 필요한 시스템SGLang

SGLang은 멀티턴 처리와 구조화 출력에 강점을 가지며, 싱글턴 위주의 대량 생성 작업에서는 LMDeploy가 우수한 처리량을 보여준다. 반면 vLLM은 손쉬운 통합과 넓은 플랫폼 호환성을 통해 빠른 구축이 필요한 상황에 적합하다. 각 프레임워크의 특성과 시스템 요구사항을 고려하여 선택하는 것이 중요하다.


Edit page
Share this post:

Previous Post
Morphik — 페이지 이미지 기반 문서 검색과 RAG 파이프라인
Next Post
LangChain SemanticChunker — 의미 기반 텍스트 분할 가이드