Posts
All the articles I've posted.
-
한글 PDF 텍스트 + OCR 하이브리드 파서 구축기
한국어 PDF의 CID 인코딩 깨짐 문제를 해결하기 위한 텍스트 + OCR 하이브리드 파싱 파이프라인을 정리한다. pdfplumber와 Tesseract OCR을 결합해 이미지 기반 PDF까지 대응하는 방법을 다룬다.
-
LangGraph 활용 시나리오 — RAG 고도화, 웹 검색, 대화 라우팅
LangGraph를 활용한 고급 RAG 파이프라인 구성 시나리오를 정리한다. 문서 기반 검색 + 요약, 웹 검색 결합, 대화 맥락 유지, 인간 개입 라우팅, 상태 기반 제어 방법을 다룬다.
-
Qdrant Capacity Planning — RAM, 디스크, CPU 산정 가이드
Qdrant 벡터 데이터베이스의 용량 계획을 정리한다. 벡터 수와 차원에 따른 RAM 산정 공식, HNSW 오버헤드, 디스크/mmap 전략, CPU 코어 수 결정 기준을 다룬다.
-
Qdrant로 코드베이스 시맨틱 검색 구현하기
Qdrant를 활용해 코드베이스에 시맨틱 검색을 적용하는 방법을 정리한다. 자연어 질의용 sentence-transformers와 코드 유사도 검색용 jina-embeddings-v2-base-code 모델을 활용한 듀얼 임베딩 전략을 다룬다.