Tag: batch size
All the articles with the tag "batch size".
-
Embedding 모델 서빙: batch size 최적화로 긴 문서 처리
XGEN 모델 서버에서 임베딩 모델을 서빙할 때 batch size 512→2048 증가로 긴 문서 임베딩을 지원하고, n_ubatch와 n_batch 차이, CPU 전용 처리 결정까지의 실전 기록
-
임베딩 전용 서버 분리와 대용량 배치 처리 최적화
임베딩 모델을 LLM 서빙과 분리한 전용 서버 아키텍처 설계. switch-backend 기반 멀티모드 서빙과 batch size 512에서 2048로 확대한 대용량 문서 배치 처리 최적화 과정.