Tag: CUDA

All the articles with the tag "CUDA".

vLLM + llama.cpp GPU 모델 서빙 최적화 실전기

1 Dec, 2025

대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
Qdrant GPU 인덱싱 가속 — Docker 이미지와 설정 가이드

15 Jul, 2025

Qdrant v1.13.0부터 지원하는 GPU 인덱싱 가속 기능을 정리한다. GPU 전용 Docker 이미지 사용법, production.yaml gpu 블록 설정, CUDA/Vulkan 디바이스 연동 방법을 다룬다.

vLLM + llama.cpp GPU 모델 서빙 최적화 실전기