Tag: AI

All the articles with the tag "AI".

FastAPI 워크플로우 엔진에 Qdrant 하이브리드 검색 붙이기

15 Dec, 2025

FastAPI 기반 워크플로우 엔진과 Qdrant 벡터 DB를 결합하여 Dense+Sparse 하이브리드 검색 파이프라인을 구축한 과정. Circuit Breaker 패턴으로 장애 전파 차단까지.
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기

1 Dec, 2025

대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
Vast.ai GPU 인스턴스 관리 API 사용법 정리

29 Jul, 2025

Vast.ai에서 GPU 인스턴스를 검색, 생성, 관리하는 REST API 사용법을 정리한다. 오퍼 검색 필터링, 인스턴스 생성/삭제, SSH 접속까지.
vLLM vs LMDeploy vs SGLang: LLM 서빙 프레임워크 3종 벤치마크 비교

20 Jul, 2025

vLLM, LMDeploy, SGLang 세 가지 LLM 추론 프레임워크의 처리 속도, 메모리 효율, 동시 요청 처리 능력을 벤치마크 기반으로 비교 분석한다.

FastAPI 워크플로우 엔진에 Qdrant 하이브리드 검색 붙이기