태그: 모델서빙

이 태그가 달린 글 "모델서빙".

xgen-model v2 아키텍처 — MinIO 모델 허브, vLLM 0.17.0, Inference Proxy
22 Mar, 2026
XGEN 플랫폼의 모델 서빙 서비스를 4-Tier 아키텍처로 리팩토링한 과정을 정리한다. MinIO 기반 중앙 모델 저장소 + PV 캐시, vLLM 0.17.0 업그레이드, LLM/임베딩 자동 라우팅 Inference Proxy, GPU Fallback Chain, zombie 프로세스 처리까지.
AMD GPU에서 LLM 돌리기: Vulkan vs ROCm 비교
31 Jan, 2026
XGEN 모델 서버에서 AMD GPU로 LLM을 서빙할 때 Vulkan과 ROCm 백엔드를 선택하는 기준, mlock 설정, GPU 감지 fallback chain 구현까지 실전 비교
GPU 상태 모니터링 및 자동 모델 배포 시스템
31 Jan, 2026
amdsmi → pynvml → torch.hip → torch.cuda 순서의 Fallback Chain으로 GPU를 감지하고, xgen-model이 UI 설정에 따라 자동으로 vLLM 또는 llama-server를 선택해 배포하는 시스템
llama.cpp 서버 운영기: ROCm GPU에서의 삽질과 해결
31 Jan, 2026
AMD GPU 환경에서 llama.cpp 서버를 운영하며 겪은 ROCm GPU page fault, 메모리 크래시, Vulkan 전환까지의 실전 트러블슈팅 기록

xgen-model v2 아키텍처 — MinIO 모델 허브, vLLM 0.17.0, Inference Proxy