Tag: GPU
All the articles with the tag "GPU".
-
FAISS 벡터 인덱스 적용과 GPU 디바이스 최적화
시맨틱 검색 API에 FAISS 벡터 인덱스를 도입하여 키워드 확장 검색을 구현하고, GPU/CPU 디바이스 분리 및 텐서 타입 이슈를 해결한 과정을 정리한다.
-
GPU 상태 모니터링 및 자동 모델 배포 시스템
amdsmi → pynvml → torch.hip → torch.cuda 순서의 Fallback Chain으로 GPU를 감지하고, xgen-model이 UI 설정에 따라 자동으로 vLLM 또는 llama-server를 선택해 배포하는 시스템
-
llama.cpp 서버 운영기: ROCm GPU에서의 삽질과 해결
AMD GPU 환경에서 llama.cpp 서버를 운영하며 겪은 ROCm GPU page fault, 메모리 크래시, Vulkan 전환까지의 실전 트러블슈팅 기록
-
멀티 GPU LLM 배포: GPU 선택 및 레이어 오프로딩 전략
XGEN 모델 서버에서 멀티 GPU 환경을 지원하는 방법 - main_gpu, split_mode, tensor_split, n_gpu_layers를 통한 레이어 오프로딩 설계와 ProcessManager의 백엔드 자동 선택 구조