Tag: FastAPI

All the articles with the tag "FastAPI".

로컬 LLM 모델 관리 시스템: 로드/언로드/활성화 라이프사이클

25 Jan, 2026

XGEN 모델 서버에서 LLM 모델의 로드, 언로드, 활성화 상태를 관리하는 ProcessManager 라이프사이클 설계 - ModelState, auto activate, loading_status API 구현
OpenAI 호환 API 서버 직접 만들기

25 Jan, 2026

XGEN 모델 서버에서 /v1/chat/completions, /v1/embeddings 등 OpenAI 호환 엔드포인트를 FastAPI로 구현하고, llama-server와 vLLM 백엔드를 프록시하는 구조 설계 기록
vLLM vs llama.cpp: 백엔드 스위칭 아키텍처 설계

22 Jan, 2026

XGEN 모델 서버에서 vLLM과 llama-server를 런타임에 전환하는 UnifiedBackendManager 설계, switch-backend API, model_type에 따른 분기 전략, 리팩토링 과정 기록
vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션

22 Jan, 2026

vLLM Ray Serve 분산 구조에서 통합 모델 서빙 서비스로 마이그레이션한 과정. 백엔드 스위칭 매니저 설계, llama.cpp와 vLLM 런타임 전환까지.

로컬 LLM 모델 관리 시스템: 로드/언로드/활성화 라이프사이클