Tag: GPU
All the articles with the tag "GPU".
-
XGEN Workbench 분산 실행 인프라: KVM 컴퓨트 풀, GPU 워커, PriorityClass, NetworkPolicy까지
XGEN의 LLMOps/MLOps 워크벤치를 단일 Pod 실행에서 KVM 컴퓨트 풀과 GPU 워커 기반 분산 실행 구조로 확장한 과정을 정리한다. Workbench 컨트롤러, SandboxExec, Prompt Studio, 학습 Job, headless worker, GPU 메트릭, PriorityClass, NetworkPolicy, anti-affinity 설계까지 다룬다.
-
xgen-model v2 아키텍처 — MinIO 모델 허브, vLLM 0.17.0, Inference Proxy
XGEN 플랫폼의 모델 서빙 서비스를 4-Tier 아키텍처로 리팩토링한 과정을 정리한다. MinIO 기반 중앙 모델 저장소 + PV 캐시, vLLM 0.17.0 업그레이드, LLM/임베딩 자동 라우팅 Inference Proxy, GPU Fallback Chain, zombie 프로세스 처리까지.
-
XGEN GPU 모델 서빙 인프라 실전기 — 폐쇄망 배포부터 멀티 GPU 오버라이드까지
XGEN 플랫폼의 GPU 모델 서빙 서비스(xgen-model)를 제주 폐쇄망과 AWS EKS에 배포하면서 겪은 인프라 삽질을 정리한다. Istio/Traefik 전환, imagePullPolicy 폐쇄망 대응, GPU Recreate 배포 전략, CUDA graph 캡처 중 헬스체크 실패, 프로젝트별 gpuCount/config 오버라이드, MinIO credential 불일치, 프론트엔드 tensor_parallel_size 자동 설정까지.
-
XGEN GPU 벤더 추상화 — Vulkan 의존 제거와 멀티 벤더 Dockerfile 전략
XGEN 모델 서버의 GPU 관리가 Vulkan 종속 구조에서 벤더 중립 아키텍처로 전환한 과정을 정리한다. Hardware 계층 타입 시스템 설계, Management API 재설계, 프론트엔드 GPU UX 개선, NVIDIA/AMD 벤더별 Dockerfile 분리 전략과 amdsmi 설치 순서 트랩까지 실전 삽질기를 포함한다.