Posts
All the articles I've posted.
-
Embedding 모델 서빙: batch size 최적화로 긴 문서 처리
XGEN 모델 서버에서 임베딩 모델을 서빙할 때 batch size 512→2048 증가로 긴 문서 임베딩을 지원하고, n_ubatch와 n_batch 차이, CPU 전용 처리 결정까지의 실전 기록
-
임베딩 전용 서버 분리와 대용량 배치 처리 최적화
임베딩 모델을 LLM 서빙과 분리한 전용 서버 아키텍처 설계. switch-backend 기반 멀티모드 서빙과 batch size 512에서 2048로 확대한 대용량 문서 배치 처리 최적화 과정.
-
Redis 기반 SSE 세션 상태 공유: 멀티 POD 환경
Kubernetes 멀티 POD 환경에서 SSE 문서 업로드 세션 상태를 Redis로 동기화한 구현 과정
-
HuggingFace 모델 검색 및 다운로드 자동화
XGEN 모델 서버에서 HuggingFace Hub API로 모델을 검색하고, 백그라운드로 다운로드하며 진행상황을 추적하는 DownloadService 구현과 xgen-app(Tauri)과의 연동