Tag: llama.cpp

All the articles with the tag "llama.cpp".

vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드

31 Dec, 2025

xgen-model에서 vLLM과 llama-server 두 백엔드의 핵심 파라미터를 정리하고, GPU 메모리 활용률, 컨텍스트 길이, 배치 설정이 성능에 미치는 영향을 실전 경험으로 정리
aiohttp로 임베딩 API 클라이언트 만들기: 타임아웃과 배치 분할 최적화

30 Dec, 2025

llama.cpp 임베딩 서버와 통신하는 aiohttp 비동기 클라이언트를 구현하며 세션 재사용, 커넥션 타임아웃 설정, 대용량 텍스트 배치 분할, 지수 백오프 재시도 로직을 최적화한 과정.
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기

1 Dec, 2025

대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.

vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드