AI Engineer

손성준

LLM Serving · Search Engine · Full Stack · DevOps

263+ 기술 문서

4 전문 영역

4+ Years

sonsj97@plateer.com · sonsj97@gmail.com

Blog Knowledge Graph

01.

About

커머스 검색 엔진에서 출발했다. OpenSearch 키워드 검색을 5,000+ TPS 실 서비스에 적용하고, Rust로 리라이트하여 응답 28ms까지 끌어내렸다. 검색 품질을 높이기 위해 OpenSearch k-NN과 Qdrant 하이브리드 검색, LLM 쿼리 확장을 도입하며 AI Search로 확장했다.

이후 AI 에이전트 플랫폼(XGEN 2.0) 개발을 맡아 진행하고 있다. vLLM/llama.cpp 기반 멀티 GPU(CUDA, ROCm) LLM 서빙, LangChain/LangGraph 기반 Iterative RAG, GraphDB 지식 그래프, MCP 기반 AI Agent, 워크플로우 엔진까지— 7개 마이크로서비스를 Kubernetes/ArgoCD GitOps로 운영하며, 검색부터 추론, 자동화, 인프라까지 AI 서비스의 전체 스택을 직접 만들고 운영한다.

최근에는 MCP(Model Context Protocol) 생태계에 집중하고 있다. 1,000+ API 도구를 그래프 기반으로 검색하는 graph-tool-call 엔진을 오픈소스로 개발하고, 9개 소셜 플랫폼을 MCP 파이프라인으로 자동화하는 gwanjong-mcp 에이전트를 운영 중이다. AI 도구 검색, 소셜 자동화, 업무 지식 베이스까지—MCP를 실전에서 설계하고 운영하는 경험을 쌓고 있다.

Languages Rust Python TypeScript Go

Frameworks NestJS Next.js FastAPI Axum Tauri React

AI / ML vLLM llama.cpp Qdrant OpenSearch HuggingFace LangChain LangGraph MCP

Infra Kubernetes Docker ArgoCD Jenkins Redis

02.

Expertise

Search Engine

90 posts

OpenSearch k-NN / Hybrid Search
Qdrant Vector DB
Rust Axum 검색 API
NestJS 하이브리드 검색
RAG / Semantic Search

AI / ML

65 posts

vLLM / llama.cpp GPU 서빙
MCP 기반 AI Agent 설계
그래프 기반 도구 검색 엔진
LangChain / LangGraph RAG
XGEN AI 에이전트 플랫폼

Full Stack

59 posts

Next.js / React UI
Rust API Gateway
Tauri 데스크톱 앱
Python 비동기 서비스
WebSocket / SSE 실시간

DevOps

37 posts

K8s / K3s 클러스터 운영
ArgoCD GitOps 배포
Jenkins CI/CD 파이프라인
Docker 멀티스테이지 빌드
Istio / Let's Encrypt

03.

Projects

Featured Project 관련 글 40+개

XGEN 2.0 — AI 에이전트 플랫폼

Search AI/ML Full Stack DevOps

7개 마이크로서비스(Model Serving, API Gateway, Core, Workflow, Retrieval, Documents, Frontend)로 구성된 엔터프라이즈 AI 에이전트 플랫폼이다. 4-Tier Backend Adapter 패턴으로 NVIDIA CUDA / AMD ROCm / Vulkan GPU를 자동 감지하여 vLLM, llama.cpp 백엔드를 동적 전환하며, 단일 서버에서 최대 20개 모델을 동시 서빙한다. Iterative RAG 파이프라인(쿼리 확장 → top-100 대규모 검색 → LLM 반복 필터링 → 압축)으로 기존 단순 top-k 대비 검색 정확도를 개선했고, Qdrant Prefetch + RRF(Reciprocal Rank Fusion) 기반 하이브리드 검색(Dense + BM25 Sparse)을 적용했다.

Transformers 대비 LLM 추론 처리량 15배 향상 (12.5 → 185.3 tokens/sec, vLLM PagedAttention + Continuous Batching)
컨테이너 기동 시간 3배 단축 (45s → 15s), 메모리 20% 절감 — Ray Serve 제거 후 FastAPI 단일 프로세스 전환
임베딩 처리 속도 3.75배 개선 (10MB PDF 기준 45s → 12s) — Switch-Backend 듀얼모드 + 배치 사이즈 512 → 2048
ArgoCD GitOps 파이프라인으로 배포 시간 15분 → 3분, 롤백 30초, 배포 오류 90% 감소, 가용성 99.9%
엔터프라이즈 RBAC(5단계 역할 체계) + 전체 API IO 감사 로깅 + MCP 도구 레벨 권한 제어

Python Rust TypeScript K8s / K3s vLLM llama.cpp Qdrant FastAPI Next.js ArgoCD

AI/ML 4 posts

graph-tool-call — 그래프 도구 검색 엔진

1,000+ API 도구에서 LLM이 필요한 도구를 정확히 찾는 그래프 기반 검색 엔진. OpenAPI 스펙을 파싱하여 Tag → Operation → Parameter 3계층 가중 그래프를 구축하고, BFS 전파 + IDF 가중치로 Vector/BM25 대비 높은 정확도를 달성했다. MCP Proxy 모드로 다수 MCP 서버를 2개 meta-tool로 축약하는 게이트웨이 기능을 제공한다.

1,068 Tool 벤치마크에서 Vector 대비 Recall 2배, 정확도 40% 향상
MCP Proxy gateway 모드 — N개 MCP 서버를 2개 meta-tool로 축약 (1-hop direct calling)
워크플로우 체인 엔진 — 다단계 도구 호출을 DAG로 자동 구성

Python MCP OpenAPI Graph BFS PyPI

AI/ML Full Stack 2 posts

gwanjong-mcp — AI 소셜 에이전트

9개 소셜 플랫폼(Dev.to, Bluesky, Twitter, Reddit, Mastodon, HN, Stack Overflow, GitHub Discussions, Discourse)을 MCP 파이프라인으로 자동화하는 AI 소셜 에이전트. devhub-social 어댑터 패턴으로 플랫폼 추상화, mcp-pipeline의 stores/requires 체인으로 Scout → Draft → Strike 3단계 파이프라인을 구성했다.

4개 → 9개 플랫폼 확장 — 어댑터 패턴으로 플랫폼당 추가 코드 최소화
stores/requires 체인으로 멀티스텝 파이프라인 자동 의존성 해결
캠페인 GTM + 스팸 방지 체계 — rate limiter, 콘텐츠 검증, 플랫폼별 정책 준수

Python MCP TypeScript 9 Platforms Pipeline

AI/ML PyPI

Synaptic Memory — 뇌 모방 지식 그래프

LLM 에이전트를 위한 뇌 모방(Brain-inspired) 지식 그래프 라이브러리 + MCP 서버. Spreading Activation(연상 검색), Hebbian Learning(경험 학습), 4단계 Memory Consolidation(L0~L3 자동 승격/삭제)으로 에이전트가 과거 경험을 자동으로 구조화하고 검색한다. FTS만으로 MRR 0.793(금융/의료/법률), HotPotQA nDCG 0.636을 달성했다.

16개 MCP 도구 제공 — Auto-ontology(규칙 + LLM + Embedding) 자동 구축
5축 랭킹 (relevance × importance × recency × vitality × context)
Zero-dep 코어 — SQLite/PostgreSQL/Qdrant/Neo4j 백엔드 교체 가능

Python MCP Knowledge Graph Hebbian PyPI

Search 12 posts

Rust 커머스 검색 엔진

NestJS 검색 엔진의 성능 한계를 해결하기 위해 Rust/Axum으로 리라이트한 커머스 검색 API 서버. OpenSearch 멀티 인덱스 동시 검색, Redis 캐싱, 멀티 데이터소스(상품/브랜드/카테고리) 통합 검색을 구현했다. NestJS 대비 메모리 사용량 1/5, 응답 시간 30% 개선, 인덱싱 처리량 2배 향상을 달성했다.

평균 응답 28ms, 처리량 2,100 req/s — Tokio 비동기 런타임 + Tower 미들웨어
유휴 메모리 12MB (NestJS 60MB 대비 1/5) — Zero-cost abstraction 활용
Jenkins → Docker → K8s 자동 배포 파이프라인 구축

Rust Axum Tokio OpenSearch Redis Docker

AI/ML 15 posts

AI Agent 브라우저 자동화

4-Layer 아키텍처(Orchestrator → Planner → Navigator → Extractor)의 LLM 기반 브라우저 자동화 에이전트. MCP(Model Context Protocol)로 도구를 동적 등록하고, Playwright 기반 DOM 파싱 + CSS 셀렉터 신뢰도 점수 산정으로 웹 구조 변경에 강건한 자동화 시스템을 구축했다. 4일간 49커밋으로 프로토타입부터 프로덕션까지 완성했다.

Human-in-the-Loop 도입으로 태스크 완수율 30% → 95%로 향상
MCP 도구 호출 5.5배 감소 — 계획 단계에서 DOM 컨텍스트 사전 주입
시나리오 레코더 → JSON 플레이북 → 반복 실행까지 no-code 자동화

TypeScript Python Playwright MCP LLM Next.js

Search 10 posts

NestJS 하이브리드 검색 엔진

14개월간 318커밋으로 발전시킨 커머스 하이브리드 검색 엔진. OpenSearch 키워드 검색 + Qdrant 384차원 벡터 시맨틱 검색을 RRF로 결합하고, LLM 기반 쿼리 확장(동의어/의도 분석)과 리랭킹 파이프라인으로 검색 정확도를 40% 향상시켰다. Nori 형태소 분석기로 한국어 용언을 감지하여 불필요한 GPT 호출을 제거, 응답 시간을 2~3초에서 300ms로 단축했다.

시맨틱 검색 도입으로 검색 정확도 40% 향상 (키워드 미스매치 해결)
Nori 용언 감지로 GPT 호출 최적화 — 2~3s → 300ms 응답
다중 테넌트 인덱스 설계 — 단일 클러스터에서 복수 쇼핑몰 검색 서비스

NestJS OpenSearch Qdrant Nori Python FastEmbed

Full Stack 10 posts

Tauri 2.0 AI 데스크톱 앱

Electron 대비 바이너리 크기 1/10, 메모리 사용량 1/3을 달성한 Tauri 2.0 기반 크로스 플랫폼 AI 데스크톱 앱. Remote WebView 아키텍처로 프론트엔드 빌드 없이 원격 서버 UI를 로컬 앱에 직접 렌더링하고, mistral.rs 기반 로컬 LLM 추론, Bore 터널을 통한 NAT traversal, 3가지 운영 모드(로컬/원격/하이브리드) 자동 전환을 구현했다.

Rust Sidecar 패턴 — Python 서비스를 앱과 함께 자동 기동/종료
Remote WebView로 프론트엔드 빌드 제거 — 배포 시간 단축
mistral.rs 로컬 LLM 추론 + Bore 터널 NAT traversal 자체 구현

Tauri 2.0 Rust React TypeScript mistral.rs

Search AI/ML 운영 사례

아이스크림몰 AI Search

교육전문 쇼핑몰(아이스크림몰)에 AI 검색 시스템을 구축하고 실 서비스로 운영한 사례. NestJS 기반 검색 엔진에 시맨틱 검색 + LLM 쿼리 확장을 적용하여 상품 검색 정확도를 개선했다. 피크 트래픽 5,000+ TPS를 안정적으로 처리하며, 이후 Rust 리라이트를 통해 운영 비용을 추가 절감했다.