Tag: AI
All the articles with the tag "AI".
-
벡터DB 컬렉션 문서 요약 및 페이지네이션 API 설계
Qdrant scroll() API로 컬렉션 내 문서를 페이지네이션하고, document_id 기준으로 그룹핑해 디렉토리 트리용 요약 엔드포인트를 설계한 과정
-
RAG 서비스의 토큰 관리와 컨텍스트 윈도우 최적화
xgen-workflow Iterative RAG에서 vLLM 32K 컨텍스트 한계를 관리하는 TokenBudgetManager 구현 - 한글/영문 토큰 추정, 배치 필터링 토큰 제한, 압축 단계 토큰 예산 관리
-
SSE 스트리밍으로 대규모 배치 워크플로우 결과 전달하기
xgen-workflow에서 100개 이상 테스트 케이스를 배치 처리하며 진행상황을 SSE로 실시간 전달하는 아키텍처 - batch_results에서 progress-only 방식으로의 전환, 취소 구현, Redis 세션 관리까지
-
Python 싱글턴 풀 패턴으로 배치 실행 메모리 누수 해결하기
RAG 워크플로우를 배치로 100건 이상 반복 실행할 때 발생하는 메모리 누수를 싱글턴 풀 패턴으로 해결한 과정. LLM 클라이언트, 검색 캐시, RAG 서비스의 객체 재사용 설계와 캐시 비활성화의 역설적 결정.