AI Engineer
손성준
LLM Serving · Search Engine · Full Stack · DevOps
sonsj97@plateer.com · sonsj97@gmail.com
About
커머스 검색 엔진에서 출발했다. OpenSearch 키워드 검색을 5,000+ TPS 실 서비스에 적용하고, Rust로 리라이트하여 응답 28ms까지 끌어내렸다. 검색 품질을 높이기 위해 OpenSearch k-NN과 Qdrant 하이브리드 검색, LLM 쿼리 확장을 도입하며 AI Search로 확장했다.
이후 AI 에이전트 플랫폼(XGEN 2.0) 개발을 맡아 진행하고 있다. vLLM/llama.cpp 기반 멀티 GPU(CUDA, ROCm) LLM 서빙, LangChain/LangGraph 기반 Iterative RAG, GraphDB 지식 그래프, MCP 기반 AI Agent, 워크플로우 엔진까지— 7개 마이크로서비스를 Kubernetes/ArgoCD GitOps로 운영하며, 검색부터 추론, 자동화, 인프라까지 AI 서비스의 전체 스택을 직접 만들고 운영한다.
최근에는 MCP(Model Context Protocol) 생태계에 집중하고 있다. 1,000+ API 도구를 그래프 기반으로 검색하는 graph-tool-call 엔진을 오픈소스로 개발하고, 9개 소셜 플랫폼을 MCP 파이프라인으로 자동화하는 gwanjong-mcp 에이전트를 운영 중이다. AI 도구 검색, 소셜 자동화, 업무 지식 베이스까지—MCP를 실전에서 설계하고 운영하는 경험을 쌓고 있다.
Expertise
Search Engine
90 posts- OpenSearch k-NN / Hybrid Search
- Qdrant Vector DB
- Rust Axum 검색 API
- NestJS 하이브리드 검색
- RAG / Semantic Search
AI / ML
65 posts- vLLM / llama.cpp GPU 서빙
- MCP 기반 AI Agent 설계
- 그래프 기반 도구 검색 엔진
- LangChain / LangGraph RAG
- XGEN AI 에이전트 플랫폼
Full Stack
59 posts- Next.js / React UI
- Rust API Gateway
- Tauri 데스크톱 앱
- Python 비동기 서비스
- WebSocket / SSE 실시간
DevOps
37 posts- K8s / K3s 클러스터 운영
- ArgoCD GitOps 배포
- Jenkins CI/CD 파이프라인
- Docker 멀티스테이지 빌드
- Istio / Let's Encrypt
Projects
XGEN 2.0 — AI 에이전트 플랫폼
7개 마이크로서비스(Model Serving, API Gateway, Core, Workflow, Retrieval, Documents, Frontend)로 구성된 엔터프라이즈 AI 에이전트 플랫폼이다. 4-Tier Backend Adapter 패턴으로 NVIDIA CUDA / AMD ROCm / Vulkan GPU를 자동 감지하여 vLLM, llama.cpp 백엔드를 동적 전환하며, 단일 서버에서 최대 20개 모델을 동시 서빙한다. Iterative RAG 파이프라인(쿼리 확장 → top-100 대규모 검색 → LLM 반복 필터링 → 압축)으로 기존 단순 top-k 대비 검색 정확도를 개선했고, Qdrant Prefetch + RRF(Reciprocal Rank Fusion) 기반 하이브리드 검색(Dense + BM25 Sparse)을 적용했다.
- Transformers 대비 LLM 추론 처리량 15배 향상 (12.5 → 185.3 tokens/sec, vLLM PagedAttention + Continuous Batching)
- 컨테이너 기동 시간 3배 단축 (45s → 15s), 메모리 20% 절감 — Ray Serve 제거 후 FastAPI 단일 프로세스 전환
- 임베딩 처리 속도 3.75배 개선 (10MB PDF 기준 45s → 12s) — Switch-Backend 듀얼모드 + 배치 사이즈 512 → 2048
- ArgoCD GitOps 파이프라인으로 배포 시간 15분 → 3분, 롤백 30초, 배포 오류 90% 감소, 가용성 99.9%
- 엔터프라이즈 RBAC(5단계 역할 체계) + 전체 API IO 감사 로깅 + MCP 도구 레벨 권한 제어
graph-tool-call — 그래프 도구 검색 엔진
1,000+ API 도구에서 LLM이 필요한 도구를 정확히 찾는 그래프 기반 검색 엔진. OpenAPI 스펙을 파싱하여 Tag → Operation → Parameter 3계층 가중 그래프를 구축하고, BFS 전파 + IDF 가중치로 Vector/BM25 대비 높은 정확도를 달성했다. MCP Proxy 모드로 다수 MCP 서버를 2개 meta-tool로 축약하는 게이트웨이 기능을 제공한다.
- 1,068 Tool 벤치마크에서 Vector 대비 Recall 2배, 정확도 40% 향상
- MCP Proxy gateway 모드 — N개 MCP 서버를 2개 meta-tool로 축약 (1-hop direct calling)
- 워크플로우 체인 엔진 — 다단계 도구 호출을 DAG로 자동 구성
gwanjong-mcp — AI 소셜 에이전트
9개 소셜 플랫폼(Dev.to, Bluesky, Twitter, Reddit, Mastodon, HN, Stack Overflow, GitHub Discussions, Discourse)을 MCP 파이프라인으로 자동화하는 AI 소셜 에이전트. devhub-social 어댑터 패턴으로 플랫폼 추상화, mcp-pipeline의 stores/requires 체인으로 Scout → Draft → Strike 3단계 파이프라인을 구성했다.
- 4개 → 9개 플랫폼 확장 — 어댑터 패턴으로 플랫폼당 추가 코드 최소화
- stores/requires 체인으로 멀티스텝 파이프라인 자동 의존성 해결
- 캠페인 GTM + 스팸 방지 체계 — rate limiter, 콘텐츠 검증, 플랫폼별 정책 준수
Synaptic Memory — 뇌 모방 지식 그래프
LLM 에이전트를 위한 뇌 모방(Brain-inspired) 지식 그래프 라이브러리 + MCP 서버. Spreading Activation(연상 검색), Hebbian Learning(경험 학습), 4단계 Memory Consolidation(L0~L3 자동 승격/삭제)으로 에이전트가 과거 경험을 자동으로 구조화하고 검색한다. FTS만으로 MRR 0.793(금융/의료/법률), HotPotQA nDCG 0.636을 달성했다.
- 16개 MCP 도구 제공 — Auto-ontology(규칙 + LLM + Embedding) 자동 구축
- 5축 랭킹 (relevance × importance × recency × vitality × context)
- Zero-dep 코어 — SQLite/PostgreSQL/Qdrant/Neo4j 백엔드 교체 가능
Rust 커머스 검색 엔진
NestJS 검색 엔진의 성능 한계를 해결하기 위해 Rust/Axum으로 리라이트한 커머스 검색 API 서버. OpenSearch 멀티 인덱스 동시 검색, Redis 캐싱, 멀티 데이터소스(상품/브랜드/카테고리) 통합 검색을 구현했다. NestJS 대비 메모리 사용량 1/5, 응답 시간 30% 개선, 인덱싱 처리량 2배 향상을 달성했다.
- 평균 응답 28ms, 처리량 2,100 req/s — Tokio 비동기 런타임 + Tower 미들웨어
- 유휴 메모리 12MB (NestJS 60MB 대비 1/5) — Zero-cost abstraction 활용
- Jenkins → Docker → K8s 자동 배포 파이프라인 구축
AI Agent 브라우저 자동화
4-Layer 아키텍처(Orchestrator → Planner → Navigator → Extractor)의 LLM 기반 브라우저 자동화 에이전트. MCP(Model Context Protocol)로 도구를 동적 등록하고, Playwright 기반 DOM 파싱 + CSS 셀렉터 신뢰도 점수 산정으로 웹 구조 변경에 강건한 자동화 시스템을 구축했다. 4일간 49커밋으로 프로토타입부터 프로덕션까지 완성했다.
- Human-in-the-Loop 도입으로 태스크 완수율 30% → 95%로 향상
- MCP 도구 호출 5.5배 감소 — 계획 단계에서 DOM 컨텍스트 사전 주입
- 시나리오 레코더 → JSON 플레이북 → 반복 실행까지 no-code 자동화
NestJS 하이브리드 검색 엔진
14개월간 318커밋으로 발전시킨 커머스 하이브리드 검색 엔진. OpenSearch 키워드 검색 + Qdrant 384차원 벡터 시맨틱 검색을 RRF로 결합하고, LLM 기반 쿼리 확장(동의어/의도 분석)과 리랭킹 파이프라인으로 검색 정확도를 40% 향상시켰다. Nori 형태소 분석기로 한국어 용언을 감지하여 불필요한 GPT 호출을 제거, 응답 시간을 2~3초에서 300ms로 단축했다.
- 시맨틱 검색 도입으로 검색 정확도 40% 향상 (키워드 미스매치 해결)
- Nori 용언 감지로 GPT 호출 최적화 — 2~3s → 300ms 응답
- 다중 테넌트 인덱스 설계 — 단일 클러스터에서 복수 쇼핑몰 검색 서비스
Tauri 2.0 AI 데스크톱 앱
Electron 대비 바이너리 크기 1/10, 메모리 사용량 1/3을 달성한 Tauri 2.0 기반 크로스 플랫폼 AI 데스크톱 앱. Remote WebView 아키텍처로 프론트엔드 빌드 없이 원격 서버 UI를 로컬 앱에 직접 렌더링하고, mistral.rs 기반 로컬 LLM 추론, Bore 터널을 통한 NAT traversal, 3가지 운영 모드(로컬/원격/하이브리드) 자동 전환을 구현했다.
- Rust Sidecar 패턴 — Python 서비스를 앱과 함께 자동 기동/종료
- Remote WebView로 프론트엔드 빌드 제거 — 배포 시간 단축
- mistral.rs 로컬 LLM 추론 + Bore 터널 NAT traversal 자체 구현
아이스크림몰 AI Search
교육전문 쇼핑몰(아이스크림몰)에 AI 검색 시스템을 구축하고 실 서비스로 운영한 사례. NestJS 기반 검색 엔진에 시맨틱 검색 + LLM 쿼리 확장을 적용하여 상품 검색 정확도를 개선했다. 피크 트래픽 5,000+ TPS를 안정적으로 처리하며, 이후 Rust 리라이트를 통해 운영 비용을 추가 절감했다.
- 5,000+ TPS 피크 트래픽 안정 처리 — 실 서비스 무중단 운영
- 시맨틱 검색으로 키워드 미스매치 해결 — 검색 전환율 개선
- NestJS → Rust 리라이트로 메모리 1/5, 응답 30% 개선
Open Source
graph-tool-call
1,000+ API 도구를 그래프로 검색하는 LLM Agent 도구 엔진. MCP Proxy gateway 지원.
synaptic-memory
뇌 모방 지식 그래프 — Spreading Activation, Hebbian Learning, Memory Consolidation. MCP 서버 16개 도구.
devhub-social
개발자 커뮤니티 통합 비동기 클라이언트 — Dev.to, Bluesky, Twitter/X, Reddit 등 9개 플랫폼.
ku-portal-mcp
고려대 KUPID 포털 + Canvas LMS MCP 서버 — 공지, 시간표, 도서관, 과제, 성적 조회.
Tech Stack
Languages & Frameworks
AI / ML
Infrastructure & CI/CD
Timeline
- graph-tool-call 오픈소스 개발 (1,068 Tool 그래프 검색, MCP Proxy, PyPI 배포)
- gwanjong-mcp AI 소셜 에이전트 (9개 플랫폼, MCP Pipeline)
- Synaptic Memory 오픈소스 개발 (뇌 모방 지식 그래프, MCP 서버, PyPI 배포)
- Hive Corp AI 자율운영 플랫폼에 synaptic-memory + graph-tool-call 통합
- 현금흐름 예측 시계열 ML 앙상블 시스템
- XGEN 2.0 AI 에이전트 플랫폼 구축 (K8s/ArgoCD 인프라, 프론트엔드, 워크플로우)
- Knowledge Graph 시각화 시스템 개발
- NestJS 하이브리드 검색 엔진 구축 (318 커밋, 14개월)
- 시맨틱 검색 API 설계 및 개발
- Qdrant 벡터 DB 기반 시맨틱 검색 구축
- 오로라 커머스 검색 API 개발 (OpenSearch 멀티 인덱스)
- 수요예측 API 개발 / 페르소나 추천 시스템