Tag: Python
All the articles with the tag "Python".
-
RAG Document Loader — .doc/.docx 문서 변환과 파싱
LibreOffice CLI로 .doc 파일을 .docx로 변환하고 LangChain Docx2txtLoader로 파싱하는 파이프라인을 정리한다. 레거시 문서 포맷을 RAG 시스템에 적용하기 위한 전처리 과정을 다룬다.
-
“Qdrant + FastAPI 문서 기반 RAG 파이프라인 구현”
“FastAPI와 Qdrant를 활용한 문서 기반 RAG 파이프라인 예제를 정리한다. 파일 업로드부터 확장자별 로더, 청킹, Qdrant 벡터 색인, Dense/Sparse/Hybrid 검색까지 전 과정을 다룬다.”
-
LangChain과 Qdrant 통합 — Dense, Sparse, Hybrid 검색 구현
langchain-qdrant 모듈을 사용해 Qdrant를 LangChain과 연동하는 방법을 정리한다. Dense Vector, Sparse Vector, Hybrid 검색, 메타데이터 필터링, Retriever 변환 등의 기능을 예제와 함께 다룬다.
-
한글 PDF 텍스트 + OCR 하이브리드 파서 구축기
한국어 PDF의 CID 인코딩 깨짐 문제를 해결하기 위한 텍스트 + OCR 하이브리드 파싱 파이프라인을 정리한다. pdfplumber와 Tesseract OCR을 결합해 이미지 기반 PDF까지 대응하는 방법을 다룬다.