Tag: 아키텍처
All the articles with the tag "아키텍처".
-
xgen-model v2 아키텍처 — MinIO 모델 허브, vLLM 0.17.0, Inference Proxy
XGEN 플랫폼의 모델 서빙 서비스를 4-Tier 아키텍처로 리팩토링한 과정을 정리한다. MinIO 기반 중앙 모델 저장소 + PV 캐시, vLLM 0.17.0 업그레이드, LLM/임베딩 자동 라우팅 Inference Proxy, GPU Fallback Chain, zombie 프로세스 처리까지.
-
vLLM vs llama.cpp: 백엔드 스위칭 아키텍처 설계
XGEN 모델 서버에서 vLLM과 llama-server를 런타임에 전환하는 UnifiedBackendManager 설계, switch-backend API, model_type에 따른 분기 전략, 리팩토링 과정 기록
-
vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션
vLLM Ray Serve 분산 구조에서 통합 모델 서빙 서비스로 마이그레이션한 과정. 백엔드 스위칭 매니저 설계, llama.cpp와 vLLM 런타임 전환까지.
-
Axum + OpenSearch: Rust 검색 API 아키텍처 설계
Axum 웹 프레임워크와 OpenSearch를 결합하여 커머스 검색 API를 설계한 과정. Handlebars 템플릿 기반 동적 쿼리, 필드 가중치 시스템, Aggregation 처리까지.