Tag: LLM
All the articles with the tag "LLM".
-
RAG 서비스의 토큰 관리와 컨텍스트 윈도우 최적화
xgen-workflow Iterative RAG에서 vLLM 32K 컨텍스트 한계를 관리하는 TokenBudgetManager 구현 - 한글/영문 토큰 추정, 배치 필터링 토큰 제한, 압축 단계 토큰 예산 관리
-
문서 처리 서비스에 DeepSeek 지시문 적용하기
vLLM 기반 DeepSeek 모델을 문서 메타데이터 자동 생성 파이프라인에 통합하고 지시문을 최적화한 과정
-
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기
대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
-
LangChain PydanticOutputParser — LLM 출력을 구조화된 데이터로 변환
LangChain의 PydanticOutputParser를 활용해 LLM 출력을 타입이 명확한 구조화된 데이터로 파싱하는 방법을 정리한다. Pydantic 모델 정의, 포맷 인스트럭션 생성, 유효성 검사 과정을 다룬다.