태그: GPU

이 태그가 달린 글 "GPU".

K8s 없이 Workbench 띄우기: XGEN Workbench Docker 독립 스택과 폐쇄망 배포
26 Jun, 2026 · 09:59
Kubernetes 기반 XGEN Workbench를 단일 GPU 서버와 폐쇄망 환경에서도 운영할 수 있도록 Docker 독립 스택, DockerDriver, USB 이미지 반입, pull_policy never, GPU 세션 이미지를 정리한 과정을 다룬다.
xgen-model 멀티노드 GPU 서빙 구조: DaemonSet, Headless Service, 서버 타겟 라우팅
23 Jun, 2026 · 19:27
xgen-model을 단일 GPU Pod에서 GPU 노드 전체로 확장하기 위해 DaemonSet, Headless Service, cluster-aware API, 서버 타겟 라우팅, gpu_ids 기반 슬롯 분리를 적용한 과정을 정리한다.
XGEN Workbench 분산 실행 인프라: KVM 컴퓨트 풀, GPU 워커, PriorityClass, NetworkPolicy까지
9 Jun, 2026
XGEN의 LLMOps/MLOps 워크벤치를 단일 Pod 실행에서 KVM 컴퓨트 풀과 GPU 워커 기반 분산 실행 구조로 확장한 과정을 정리한다. Workbench 컨트롤러, SandboxExec, Prompt Studio, 학습 Job, headless worker, GPU 메트릭, PriorityClass, NetworkPolicy, anti-affinity 설계까지 다룬다.
xgen-model v2 아키텍처 — MinIO 모델 허브, vLLM 0.17.0, Inference Proxy
22 Mar, 2026
XGEN 플랫폼의 모델 서빙 서비스를 4-Tier 아키텍처로 리팩토링한 과정을 정리한다. MinIO 기반 중앙 모델 저장소 + PV 캐시, vLLM 0.17.0 업그레이드, LLM/임베딩 자동 라우팅 Inference Proxy, GPU Fallback Chain, zombie 프로세스 처리까지.

태그: GPU

K8s 없이 Workbench 띄우기: XGEN Workbench Docker 독립 스택과 폐쇄망 배포

xgen-model 멀티노드 GPU 서빙 구조: DaemonSet, Headless Service, 서버 타겟 라우팅

XGEN Workbench 분산 실행 인프라: KVM 컴퓨트 풀, GPU 워커, PriorityClass, NetworkPolicy까지

xgen-model v2 아키텍처 — MinIO 모델 허브, vLLM 0.17.0, Inference Proxy