Posts
All the articles I've posted.
-
FastAPI 워크플로우 엔진에 Qdrant 하이브리드 검색 붙이기
FastAPI 기반 워크플로우 엔진과 Qdrant 벡터 DB를 결합하여 Dense+Sparse 하이브리드 검색 파이프라인을 구축한 과정. Circuit Breaker 패턴으로 장애 전파 차단까지.
-
SSE 기반 파일 업로드 진행률 표시 + 취소 기능
문서 업로드의 OCR/임베딩/LLM 단계별 진행률을 SSE로 실시간 표시하고, AbortSignal로 개별/전체 취소를 구현한 과정. SSE 재연결 로직, Next.js API Route 프록시까지.
-
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기
대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
-
Gateway 서비스 매핑: LLM/Crawler/ML 통합 구성
Rust API Gateway에서 YAML 기반 서비스 매핑으로 8개 마이크로서비스의 모듈별 라우팅을 구성한 과정