태그: LLM Serving

이 태그가 달린 글 "LLM Serving".

Vast.ai GPU 인스턴스 관리 API 사용법 정리
29 Jul, 2025
Vast.ai에서 GPU 인스턴스를 검색, 생성, 관리하는 REST API 사용법을 정리한다. 오퍼 검색 필터링, 인스턴스 생성/삭제, SSH 접속까지.
vLLM vs LMDeploy vs SGLang: LLM 서빙 프레임워크 3종 벤치마크 비교
20 Jul, 2025
vLLM, LMDeploy, SGLang 세 가지 LLM 추론 프레임워크의 처리 속도, 메모리 효율, 동시 요청 처리 능력을 벤치마크 기반으로 비교 분석한다.
LLM 멀티턴 vs 싱글턴 대화: 차이점과 구현 전략
19 Jul, 2025
LLM 기반 챗봇에서 멀티턴(Multi-turn)과 싱글턴(Single-turn) 대화 방식의 차이를 정리한다. 대화 컨텍스트 유지, KV Cache 관리, 토큰 예산 전략까지.
SGLang vs vLLM 비교: LLM 추론 프레임워크 선택 가이드
19 Jul, 2025
UC 버클리에서 개발된 SGLang과 vLLM의 아키텍처, 처리량, 지연 시간, 메모리 효율을 비교 분석한다. RadixAttention vs PagedAttention, 배치 스케줄링 전략 차이까지.

Vast.ai GPU 인스턴스 관리 API 사용법 정리