Tag: 성능튜닝
All the articles with the tag "성능튜닝".
-
임베딩 전용 서버 분리와 대용량 배치 처리 최적화
임베딩 모델을 LLM 서빙과 분리한 전용 서버 아키텍처 설계. switch-backend 기반 멀티모드 서빙과 batch size 512에서 2048로 확대한 대용량 문서 배치 처리 최적화 과정.
-
vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드
xgen-model에서 vLLM과 llama-server 두 백엔드의 핵심 파라미터를 정리하고, GPU 메모리 활용률, 컨텍스트 길이, 배치 설정이 성능에 미치는 영향을 실전 경험으로 정리