Tag: 백엔드스위칭
All the articles with the tag "백엔드스위칭".
-
vLLM vs llama.cpp: 백엔드 스위칭 아키텍처 설계
XGEN 모델 서버에서 vLLM과 llama-server를 런타임에 전환하는 UnifiedBackendManager 설계, switch-backend API, model_type에 따른 분기 전략, 리팩토링 과정 기록
-
vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션
vLLM Ray Serve 분산 구조에서 통합 모델 서빙 서비스로 마이그레이션한 과정. 백엔드 스위칭 매니저 설계, llama.cpp와 vLLM 런타임 전환까지.