Tag: GPU

All the articles with the tag "GPU".

vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드

31 Dec, 2025

xgen-model에서 vLLM과 llama-server 두 백엔드의 핵심 파라미터를 정리하고, GPU 메모리 활용률, 컨텍스트 길이, 배치 설정이 성능에 미치는 영향을 실전 경험으로 정리
Admin 모델 서빙 매니저: GPU 현황과 모델 배포 UI

20 Dec, 2025

XGEN 2.0의 모델 서빙 관리 UI 구현기 — 다중 백엔드(vLLM/llamacpp/sglang) 지원, GPU 자동 감지, HuggingFace 검색, safetensors 샤드 그룹화까지
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기

1 Dec, 2025

대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
Vast.ai GPU 인스턴스 관리 API 사용법 정리

29 Jul, 2025

Vast.ai에서 GPU 인스턴스를 검색, 생성, 관리하는 REST API 사용법을 정리한다. 오퍼 검색 필터링, 인스턴스 생성/삭제, SSH 접속까지.

vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드