Tag: llama.cpp

All the articles with the tag "llama.cpp".

임베딩 전용 서버 분리와 대용량 배치 처리 최적화

30 Jan, 2026

임베딩 모델을 LLM 서빙과 분리한 전용 서버 아키텍처 설계. switch-backend 기반 멀티모드 서빙과 batch size 512에서 2048로 확대한 대용량 문서 배치 처리 최적화 과정.
OpenAI 호환 API 서버 직접 만들기

25 Jan, 2026

XGEN 모델 서버에서 /v1/chat/completions, /v1/embeddings 등 OpenAI 호환 엔드포인트를 FastAPI로 구현하고, llama-server와 vLLM 백엔드를 프록시하는 구조 설계 기록
vLLM vs llama.cpp: 백엔드 스위칭 아키텍처 설계

22 Jan, 2026

XGEN 모델 서버에서 vLLM과 llama-server를 런타임에 전환하는 UnifiedBackendManager 설계, switch-backend API, model_type에 따른 분기 전략, 리팩토링 과정 기록
vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션

22 Jan, 2026

vLLM Ray Serve 분산 구조에서 통합 모델 서빙 서비스로 마이그레이션한 과정. 백엔드 스위칭 매니저 설계, llama.cpp와 vLLM 런타임 전환까지.

임베딩 전용 서버 분리와 대용량 배치 처리 최적화