Tag: PDF
All the articles with the tag "PDF".
-
한글 PDF 텍스트 + OCR 하이브리드 파서 구축기
한국어 PDF의 CID 인코딩 깨짐 문제를 해결하기 위한 텍스트 + OCR 하이브리드 파싱 파이프라인을 정리한다. pdfplumber와 Tesseract OCR을 결합해 이미지 기반 PDF까지 대응하는 방법을 다룬다.
-
Qdrant로 대규모 PDF 검색 확장하기 — ColPali 멀티벡터 최적화
Qdrant에서 ColPali/ColQwen2 비전 LLM의 멀티벡터로 대규모 PDF를 검색하는 방법을 정리한다. Mean Pooling으로 벡터 수를 축소하고 2단계 검색(HNSW + rescore)으로 성능을 확보하는 전략을 다룬다.