Tag: AI

All the articles with the tag "AI".

vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드

31 Dec, 2025

xgen-model에서 vLLM과 llama-server 두 백엔드의 핵심 파라미터를 정리하고, GPU 메모리 활용률, 컨텍스트 길이, 배치 설정이 성능에 미치는 영향을 실전 경험으로 정리
aiohttp로 임베딩 API 클라이언트 만들기: 타임아웃과 배치 분할 최적화

30 Dec, 2025

llama.cpp 임베딩 서버와 통신하는 aiohttp 비동기 클라이언트를 구현하며 세션 재사용, 커넥션 타임아웃 설정, 대용량 텍스트 배치 분할, 지수 백오프 재시도 로직을 최적화한 과정.
Qdrant 하이브리드 검색: Sparse + Dense 벡터 통합

29 Dec, 2025

xgen-retrieval에서 Qdrant의 Prefetch+Fusion API로 BM25 Sparse Vector와 Dense Embedding을 결합하는 하이브리드 검색 구현, Full-Text Index 추가, 컬렉션 설정까지
Sparse Vector와 Full-Text Index 하이브리드 검색 구현

29 Dec, 2025

Qdrant에 Sparse Vector(BM25/SPLADE)와 Full-Text Index를 함께 구성하고, RRF Fusion으로 Dense+Sparse 하이브리드 검색을 구현한 과정

vLLM 모델 배포: 샘플링 파라미터 튜닝 가이드