Tag: 한국어
All the articles with the tag "한국어".
-
한글 PDF 텍스트 + OCR 하이브리드 파서 구축기
한국어 PDF의 CID 인코딩 깨짐 문제를 해결하기 위한 텍스트 + OCR 하이브리드 파싱 파이프라인을 정리한다. pdfplumber와 Tesseract OCR을 결합해 이미지 기반 PDF까지 대응하는 방법을 다룬다.
All the articles with the tag "한국어".
한국어 PDF의 CID 인코딩 깨짐 문제를 해결하기 위한 텍스트 + OCR 하이브리드 파싱 파이프라인을 정리한다. pdfplumber와 Tesseract OCR을 결합해 이미지 기반 PDF까지 대응하는 방법을 다룬다.