Tag: vLLM

All the articles with the tag "vLLM".

vLLM vs llama.cpp: 백엔드 스위칭 아키텍처 설계

22 Jan, 2026

XGEN 모델 서버에서 vLLM과 llama-server를 런타임에 전환하는 UnifiedBackendManager 설계, switch-backend API, model_type에 따른 분기 전략, 리팩토링 과정 기록
vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션

22 Jan, 2026

vLLM Ray Serve 분산 구조에서 통합 모델 서빙 서비스로 마이그레이션한 과정. 백엔드 스위칭 매니저 설계, llama.cpp와 vLLM 런타임 전환까지.
vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드

31 Dec, 2025

xgen-model에서 vLLM과 llama-server 두 백엔드의 핵심 파라미터를 정리하고, GPU 메모리 활용률, 컨텍스트 길이, 배치 설정이 성능에 미치는 영향을 실전 경험으로 정리
문서 처리 서비스에 DeepSeek 지시문 적용하기

23 Dec, 2025

vLLM 기반 DeepSeek 모델을 문서 메타데이터 자동 생성 파이프라인에 통합하고 지시문을 최적화한 과정

vLLM vs llama.cpp: 백엔드 스위칭 아키텍처 설계