Posts

All the articles I've posted.

RAG 청킹 전략 — 문서 분할 방식 비교와 최적화

20 Jul, 2025

RAG 시스템의 문서 전처리 핵심인 청킹 전략을 정리한다. 문자 수 기반, 토큰 기반, 재귀적 분할, 시맨틱 청킹 등 다양한 분할 방식의 장단점과 검색 정확도에 미치는 영향을 다룬다.
RAG 고도화 개요 — Retrieval, Generation, 평가 전략 로드맵

20 Jul, 2025

RAG 시스템 고도화의 전체 로드맵을 정리한다. 청킹 전략, 질의 변형, 검색 알고리즘 최적화, 리랭킹 후처리, 프롬프트 엔지니어링, 생성 품질 평가까지 각 단계별 개선 포인트를 다룬다.
LLM 멀티턴 vs 싱글턴 대화: 차이점과 구현 전략

19 Jul, 2025

LLM 기반 챗봇에서 멀티턴(Multi-turn)과 싱글턴(Single-turn) 대화 방식의 차이를 정리한다. 대화 컨텍스트 유지, KV Cache 관리, 토큰 예산 전략까지.
SGLang vs vLLM 비교: LLM 추론 프레임워크 선택 가이드

19 Jul, 2025

UC 버클리에서 개발된 SGLang과 vLLM의 아키텍처, 처리량, 지연 시간, 메모리 효율을 비교 분석한다. RadixAttention vs PagedAttention, 배치 스케줄링 전략 차이까지.

RAG 청킹 전략 — 문서 분할 방식 비교와 최적화