Posts
All the articles I've posted.
-
AMD GPU에서 LLM 돌리기: Vulkan vs ROCm 비교
XGEN 모델 서버에서 AMD GPU로 LLM을 서빙할 때 Vulkan과 ROCm 백엔드를 선택하는 기준, mlock 설정, GPU 감지 fallback chain 구현까지 실전 비교
-
GPU 상태 모니터링 및 자동 모델 배포 시스템
amdsmi → pynvml → torch.hip → torch.cuda 순서의 Fallback Chain으로 GPU를 감지하고, xgen-model이 UI 설정에 따라 자동으로 vLLM 또는 llama-server를 선택해 배포하는 시스템
-
llama.cpp 서버 운영기: ROCm GPU에서의 삽질과 해결
AMD GPU 환경에서 llama.cpp 서버를 운영하며 겪은 ROCm GPU page fault, 메모리 크래시, Vulkan 전환까지의 실전 트러블슈팅 기록
-
멀티 GPU LLM 배포: GPU 선택 및 레이어 오프로딩 전략
XGEN 모델 서버에서 멀티 GPU 환경을 지원하는 방법 - main_gpu, split_mode, tensor_split, n_gpu_layers를 통한 레이어 오프로딩 설계와 ProcessManager의 백엔드 자동 선택 구조