Tag: 트러블슈팅
All the articles with the tag "트러블슈팅".
-
체험존 프로비저너: 신청 한 건으로 격리된 멀티테넌트 스택을 자동 발급하다
이메일 신청 한 건으로 XGEN 전체 스택을 격리해 자동 발급하는 셀프서비스 체험존(Trial Zone) 프로비저너를 설계하고 운영한 과정을 정리한다. Docker Compose per-tenant 격리, AWS 엣지 TLS 종료, nginx 동적 서브도메인 라우팅, 비동기 발급, TTL 회수까지 실전 트러블슈팅 중심으로 다룬다.
-
XGEN GPU 모델 서빙 인프라 실전기 — 폐쇄망 배포부터 멀티 GPU 오버라이드까지
XGEN 플랫폼의 GPU 모델 서빙 서비스(xgen-model)를 제주 폐쇄망과 AWS EKS에 배포하면서 겪은 인프라 삽질을 정리한다. Istio/Traefik 전환, imagePullPolicy 폐쇄망 대응, GPU Recreate 배포 전략, CUDA graph 캡처 중 헬스체크 실패, 프로젝트별 gpuCount/config 오버라이드, MinIO credential 불일치, 프론트엔드 tensor_parallel_size 자동 설정까지.
-
DNS, 도메인, SSL 인증서 — 네임서버 충돌로 Let's Encrypt 발급이 실패한 이야기
도메인 구조, DNS 조회 과정, SSL/TLS 인증서의 관계를 정리하고, 가비아와 자체 DNS(Technitium)의 네임서버 이중 등록으로 Let's Encrypt 인증서 발급이 실패한 원인과 해결 과정을 기록한다.
-
llama.cpp 서버 운영기: ROCm GPU에서의 삽질과 해결
AMD GPU 환경에서 llama.cpp 서버를 운영하며 겪은 ROCm GPU page fault, 메모리 크래시, Vulkan 전환까지의 실전 트러블슈팅 기록