Tag: LLM Serving
All the articles with the tag "LLM Serving".
-
Vast.ai GPU 인스턴스 관리 API 사용법 정리
Vast.ai에서 GPU 인스턴스를 검색, 생성, 관리하는 REST API 사용법을 정리한다. 오퍼 검색 필터링, 인스턴스 생성/삭제, SSH 접속까지.
-
vLLM vs LMDeploy vs SGLang: LLM 서빙 프레임워크 3종 벤치마크 비교
vLLM, LMDeploy, SGLang 세 가지 LLM 추론 프레임워크의 처리 속도, 메모리 효율, 동시 요청 처리 능력을 벤치마크 기반으로 비교 분석한다.
-
LLM 멀티턴 vs 싱글턴 대화: 차이점과 구현 전략
LLM 기반 챗봇에서 멀티턴(Multi-turn)과 싱글턴(Single-turn) 대화 방식의 차이를 정리한다. 대화 컨텍스트 유지, KV Cache 관리, 토큰 예산 전략까지.
-
SGLang vs vLLM 비교: LLM 추론 프레임워크 선택 가이드
UC 버클리에서 개발된 SGLang과 vLLM의 아키텍처, 처리량, 지연 시간, 메모리 효율을 비교 분석한다. RadixAttention vs PagedAttention, 배치 스케줄링 전략 차이까지.