Tag: OCR
All the articles with the tag "OCR".
-
문서 임베딩 파이프라인: 청킹 옵션과 전처리 전략
xgen-retrieval에서 PDF/DOCX/PPT 문서를 임베딩 파이프라인으로 처리하는 과정 - force_chunking, advanced chunking, OCR 처리, 텍스트 정제, 메타데이터 추출까지
-
Morphik — 페이지 이미지 기반 문서 검색과 RAG 파이프라인
OCR/파싱 대신 페이지 이미지 자체를 활용하는 Morphik의 RAG 접근 방식을 정리한다. 비전 LLM 기반 문서 검색이 기존 텍스트 파싱 대비 정확도와 속도를 모두 확보하는 원리를 다룬다.
-
한글 PDF 텍스트 + OCR 하이브리드 파서 구축기
한국어 PDF의 CID 인코딩 깨짐 문제를 해결하기 위한 텍스트 + OCR 하이브리드 파싱 파이프라인을 정리한다. pdfplumber와 Tesseract OCR을 결합해 이미지 기반 PDF까지 대응하는 방법을 다룬다.