Tag: AI
All the articles with the tag "AI".
-
vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드
xgen-model에서 vLLM과 llama-server 두 백엔드의 핵심 파라미터를 정리하고, GPU 메모리 활용률, 컨텍스트 길이, 배치 설정이 성능에 미치는 영향을 실전 경험으로 정리
-
aiohttp로 임베딩 API 클라이언트 만들기: 타임아웃과 배치 분할 최적화
llama.cpp 임베딩 서버와 통신하는 aiohttp 비동기 클라이언트를 구현하며 세션 재사용, 커넥션 타임아웃 설정, 대용량 텍스트 배치 분할, 지수 백오프 재시도 로직을 최적화한 과정.
-
Qdrant 하이브리드 검색: Sparse + Dense 벡터 통합
xgen-retrieval에서 Qdrant의 Prefetch+Fusion API로 BM25 Sparse Vector와 Dense Embedding을 결합하는 하이브리드 검색 구현, Full-Text Index 추가, 컬렉션 설정까지
-
Sparse Vector와 Full-Text Index 하이브리드 검색 구현
Qdrant에 Sparse Vector(BM25/SPLADE)와 Full-Text Index를 함께 구성하고, RRF Fusion으로 Dense+Sparse 하이브리드 검색을 구현한 과정