Tag: CUDA
All the articles with the tag "CUDA".
-
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기
대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
-
Qdrant GPU 인덱싱 가속 — Docker 이미지와 설정 가이드
Qdrant v1.13.0부터 지원하는 GPU 인덱싱 가속 기능을 정리한다. GPU 전용 Docker 이미지 사용법, production.yaml gpu 블록 설정, CUDA/Vulkan 디바이스 연동 방법을 다룬다.