AI / LLM Engineering

XGEN 플랫폼, LLM 서빙, RAG, MCP 기반 에이전트, 그래프 기반 도구 검색까지 실제 서비스 개발과 운영에서 나온 AI 엔지니어링 기록입니다.

LLM Serving · RAG · MCP Agent

133 posts 12 active tags 4 series

학습 경로

대표 글

AI
8 Mar, 2026
graph-tool-call: LLM Agent를 위한 그래프 기반 도구 검색 엔진
1,077개 API endpoint를 가진 커머스 플랫폼에서 LLM Agent가 적절한 도구를 찾는 문제를 해결하기 위해 그래프 기반 도구 검색 엔진을 설계하고 구현한 과정을 정리한다. OpenAPI 스펙 자동 수집, 관계 그래프 구축, BM25+그래프확장+임베딩 하이브리드 검색, MCP Annotation-Aware Retrieval까지 8일간의 개발 여정을 다룬다.
LLM AgentTool Retrieval
AI
9 Jun, 2026
graph-tool-call v0.20 개발기: RPC 탐지에서 Plan-and-Execute 컴파일러까지
graph-tool-call v0.19의 tool result 압축 이후, v0.20 방향으로 진행한 RPC 패턴 감지, 동적 prefix 탐지, intent parser, graph 기반 path synthesizer, runner, response synthesizer, zero-vector retrieval까지의 설계 변화를 정리한다. 아직 릴리스 전 브랜치 기준의 개발기다.
graph-tool-callAI Agent
AI
22 Jan, 2026
vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션
vLLM Ray Serve 분산 구조에서 통합 모델 서빙 서비스로 마이그레이션한 과정. 백엔드 스위칭 매니저 설계, llama.cpp와 vLLM 런타임 전환까지.
모델서빙리팩토링
AI
29 Dec, 2025
Qdrant 하이브리드 검색: Sparse + Dense 벡터 통합
xgen-retrieval에서 Qdrant의 Prefetch+Fusion API로 BM25 Sparse Vector와 Dense Embedding을 결합하는 하이브리드 검색 구현, Full-Text Index 추가, 컬렉션 설정까지
Qdrant하이브리드검색

핵심 태그

시리즈

XGEN 개발기 · 6 posts
AI 서비스 개발 · 2 posts
LLM 파인튜닝 · 2 posts
DevOps 실전 · 1 posts

AI / LLM Engineering

학습 경로

모델과 검색 기반 다지기

Tokenization 기법 정리: BPE, WordPiece, SentencePiece 비교

Transformer의 Query, Key, Value 행렬 생성 과정

Iterative RAG: 반복 검색으로 복잡한 질문 답변하기

LLM 서빙과 RAG 운영

vLLM vs LMDeploy vs SGLang: LLM 서빙 프레임워크 3종 벤치마크 비교

Embedding 모델 서빙: batch size 최적화로 긴 문서 처리

Qdrant 하이브리드 검색: Sparse + Dense 벡터 통합

Agent와 Tool Retrieval

graph-tool-call: LLM Agent를 위한 그래프 기반 도구 검색 엔진

graph-tool-call v0.20 개발기: RPC 탐지에서 Plan-and-Execute 컴파일러까지

gwanjong-mcp — AI 소셜 에이전트 MCP 시스템 설계와 구현

대표 글

graph-tool-call: LLM Agent를 위한 그래프 기반 도구 검색 엔진

graph-tool-call v0.20 개발기: RPC 탐지에서 Plan-and-Execute 컴파일러까지

vLLM에서 llama.cpp로: LLM 서빙 아키텍처 통합 마이그레이션

Qdrant 하이브리드 검색: Sparse + Dense 벡터 통합

핵심 태그

시리즈

최신 글

텍스트가 안 뽑히는 PDF를 에이전트가 읽게 만드는 법

884만 문서에서 알게 된 것: 검색보다 어려운 건 검색을 시키는 일

K8s 없이 Workbench 띄우기: XGEN Workbench Docker 독립 스택과 폐쇄망 배포

xgen-model 멀티노드 GPU 서빙 구조: DaemonSet, Headless Service, 서버 타겟 라우팅

graph-tool-call은 검색엔진에서 실행 계획 컴파일러로 진화하고 있다

문서를 외우지 않아도 찾을 수 있게: XGEN 하이브리드 검색 소개

대학 포털을 MCP 서버로 묶으면 생기는 일: KUPID와 Canvas를 Claude에서 조회하기

검색 품질은 감으로 고치면 끝이 없다: synaptic-memory 평가 루프 만들기