Tag: AI
All the articles with the tag "AI".
-
멀티 GPU LLM 배포: GPU 선택 및 레이어 오프로딩 전략
XGEN 모델 서버에서 멀티 GPU 환경을 지원하는 방법 - main_gpu, split_mode, tensor_split, n_gpu_layers를 통한 레이어 오프로딩 설계와 ProcessManager의 백엔드 자동 선택 구조
-
Embedding 모델 서빙: batch size 최적화로 긴 문서 처리
XGEN 모델 서버에서 임베딩 모델을 서빙할 때 batch size 512→2048 증가로 긴 문서 임베딩을 지원하고, n_ubatch와 n_batch 차이, CPU 전용 처리 결정까지의 실전 기록
-
임베딩 전용 서버 분리와 대용량 배치 처리 최적화
임베딩 모델을 LLM 서빙과 분리한 전용 서버 아키텍처 설계. switch-backend 기반 멀티모드 서빙과 batch size 512에서 2048로 확대한 대용량 문서 배치 처리 최적화 과정.
-
HuggingFace 모델 검색 및 다운로드 자동화
XGEN 모델 서버에서 HuggingFace Hub API로 모델을 검색하고, 백그라운드로 다운로드하며 진행상황을 추적하는 DownloadService 구현과 xgen-app(Tauri)과의 연동