Tag: AI
All the articles with the tag "AI".
-
FastAPI 워크플로우 엔진에 Qdrant 하이브리드 검색 붙이기
FastAPI 기반 워크플로우 엔진과 Qdrant 벡터 DB를 결합하여 Dense+Sparse 하이브리드 검색 파이프라인을 구축한 과정. Circuit Breaker 패턴으로 장애 전파 차단까지.
-
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기
대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
-
Vast.ai GPU 인스턴스 관리 API 사용법 정리
Vast.ai에서 GPU 인스턴스를 검색, 생성, 관리하는 REST API 사용법을 정리한다. 오퍼 검색 필터링, 인스턴스 생성/삭제, SSH 접속까지.
-
vLLM vs LMDeploy vs SGLang: LLM 서빙 프레임워크 3종 벤치마크 비교
vLLM, LMDeploy, SGLang 세 가지 LLM 추론 프레임워크의 처리 속도, 메모리 효율, 동시 요청 처리 능력을 벤치마크 기반으로 비교 분석한다.