Tag: LLM

All the articles with the tag "LLM".

RAG 서비스의 토큰 관리와 컨텍스트 윈도우 최적화

24 Dec, 2025

xgen-workflow Iterative RAG에서 vLLM 32K 컨텍스트 한계를 관리하는 TokenBudgetManager 구현 - 한글/영문 토큰 추정, 배치 필터링 토큰 제한, 압축 단계 토큰 예산 관리
문서 처리 서비스에 DeepSeek 지시문 적용하기

23 Dec, 2025

vLLM 기반 DeepSeek 모델을 문서 메타데이터 자동 생성 파이프라인에 통합하고 지시문을 최적화한 과정
vLLM + llama.cpp GPU 모델 서빙 최적화 실전기

1 Dec, 2025

대규모 언어 모델의 효율적인 서빙을 위해 vLLM과 llama.cpp 기반 추론 엔진을 구축한 과정. GPU 리소스 최적화, 동적 배칭, CUDA 메모리 관리까지 프로덕션 경험을 정리한다.
LangChain PydanticOutputParser — LLM 출력을 구조화된 데이터로 변환

20 Jul, 2025

LangChain의 PydanticOutputParser를 활용해 LLM 출력을 타입이 명확한 구조화된 데이터로 파싱하는 방법을 정리한다. Pydantic 모델 정의, 포맷 인스트럭션 생성, 유효성 검사 과정을 다룬다.

RAG 서비스의 토큰 관리와 컨텍스트 윈도우 최적화