Tag: XGEN
All the articles with the tag "XGEN".
-
RAG 서비스의 토큰 관리와 컨텍스트 윈도우 최적화
xgen-workflow Iterative RAG에서 vLLM 32K 컨텍스트 한계를 관리하는 TokenBudgetManager 구현 - 한글/영문 토큰 추정, 배치 필터링 토큰 제한, 압축 단계 토큰 예산 관리
-
SSE 스트리밍으로 대규모 배치 워크플로우 결과 전달하기
xgen-workflow에서 100개 이상 테스트 케이스를 배치 처리하며 진행상황을 SSE로 실시간 전달하는 아키텍처 - batch_results에서 progress-only 방식으로의 전환, 취소 구현, Redis 세션 관리까지
-
Python 싱글턴 풀 패턴으로 배치 실행 메모리 누수 해결하기
RAG 워크플로우를 배치로 100건 이상 반복 실행할 때 발생하는 메모리 누수를 싱글턴 풀 패턴으로 해결한 과정. LLM 클라이언트, 검색 캐시, RAG 서비스의 객체 재사용 설계와 캐시 비활성화의 역설적 결정.
-
Admin 모델 서빙 매니저: GPU 현황과 모델 배포 UI
XGEN 2.0의 모델 서빙 관리 UI 구현기 — 다중 백엔드(vLLM/llamacpp/sglang) 지원, GPU 자동 감지, HuggingFace 검색, safetensors 샤드 그룹화까지