Tag: 청킹
All the articles with the tag "청킹".
-
문서 임베딩 파이프라인: 청킹 옵션과 전처리 전략
xgen-retrieval에서 PDF/DOCX/PPT 문서를 임베딩 파이프라인으로 처리하는 과정 - force_chunking, advanced chunking, OCR 처리, 텍스트 정제, 메타데이터 추출까지
-
LangChain SemanticChunker — 의미 기반 텍스트 분할 가이드
LangChain의 SemanticChunker를 활용한 의미 기반 텍스트 분할을 정리한다. 문장 임베딩 유사도로 청크 경계를 결정하는 방식, breakpoint_threshold 설정, RAG 검색 정확도 향상 효과를 다룬다.
-
RAG 청킹 전략 — 문서 분할 방식 비교와 최적화
RAG 시스템의 문서 전처리 핵심인 청킹 전략을 정리한다. 문자 수 기반, 토큰 기반, 재귀적 분할, 시맨틱 청킹 등 다양한 분할 방식의 장단점과 검색 정확도에 미치는 영향을 다룬다.
-
RAG 고도화 개요 — Retrieval, Generation, 평가 전략 로드맵
RAG 시스템 고도화의 전체 로드맵을 정리한다. 청킹 전략, 질의 변형, 검색 알고리즘 최적화, 리랭킹 후처리, 프롬프트 엔지니어링, 생성 품질 평가까지 각 단계별 개선 포인트를 다룬다.