AI Engineer

손성준

LLM Serving · Search Engine · Full Stack · DevOps

247+ 기술 문서
4 전문 영역
4+ Years

sonsj97@plateer.com · sonsj97@naver.com

01.

About

커머스 도메인에서 AI 검색 엔진, LLM 서빙 플랫폼, GPU 모델 관리 시스템을 설계하고 운영한다. OpenSearch/Qdrant 기반 하이브리드 검색부터 vLLM/llama.cpp 모델 서빙, K8s 인프라 배포까지 전체 파이프라인을 직접 구현하는 것이 강점이다. Rust, Python, TypeScript를 주력으로 사용하며, 검색 품질 최적화와 AI 에이전트 자동화에 집중하고 있다.

Languages Rust Python TypeScript Go
Frameworks NestJS Next.js FastAPI Axum Tauri React
AI / ML vLLM llama.cpp Qdrant OpenSearch HuggingFace LangChain
Infra Kubernetes Docker ArgoCD Jenkins Redis
02.

Expertise

03.

Projects

Featured Project 관련 글 40+개

XGEN 2.0 — AI 에이전트 플랫폼

Search AI/ML Full Stack DevOps

7개 마이크로서비스(Model Serving, API Gateway, Core, Workflow, Retrieval, Documents, Frontend)로 구성된 엔터프라이즈 AI 에이전트 플랫폼이다. 4-Tier Backend Adapter 패턴으로 NVIDIA CUDA / AMD ROCm / Vulkan GPU를 자동 감지하여 vLLM, llama.cpp 백엔드를 동적 전환하며, 단일 서버에서 최대 20개 모델을 동시 서빙한다. Iterative RAG 파이프라인(쿼리 확장 → top-100 대규모 검색 → LLM 반복 필터링 → 압축)으로 기존 단순 top-k 대비 검색 정확도를 개선했고, Qdrant Prefetch + RRF(Reciprocal Rank Fusion) 기반 하이브리드 검색(Dense + BM25 Sparse)을 적용했다.

  • Transformers 대비 LLM 추론 처리량 15배 향상 (12.5 → 185.3 tokens/sec, vLLM PagedAttention + Continuous Batching)
  • 컨테이너 기동 시간 3배 단축 (45s → 15s), 메모리 20% 절감 — Ray Serve 제거 후 FastAPI 단일 프로세스 전환
  • 임베딩 처리 속도 3.75배 개선 (10MB PDF 기준 45s → 12s) — Switch-Backend 듀얼모드 + 배치 사이즈 512 → 2048
  • ArgoCD GitOps 파이프라인으로 배포 시간 15분 → 3분, 롤백 30초, 배포 오류 90% 감소, 가용성 99.9%
  • 엔터프라이즈 RBAC(5단계 역할 체계) + 전체 API IO 감사 로깅 + MCP 도구 레벨 권한 제어
Python Rust TypeScript K8s / K3s vLLM llama.cpp Qdrant FastAPI Next.js ArgoCD
Search 12 posts

Rust 커머스 검색 엔진

NestJS 검색 엔진의 성능 한계를 해결하기 위해 Rust/Axum으로 리라이트한 커머스 검색 API 서버. OpenSearch 멀티 인덱스 동시 검색, Redis 캐싱, 멀티 데이터소스(상품/브랜드/카테고리) 통합 검색을 구현했다. NestJS 대비 메모리 사용량 1/5, 응답 시간 30% 개선, 인덱싱 처리량 2배 향상을 달성했다.

  • 평균 응답 28ms, 처리량 2,100 req/s — Tokio 비동기 런타임 + Tower 미들웨어
  • 유휴 메모리 12MB (NestJS 60MB 대비 1/5) — Zero-cost abstraction 활용
  • Jenkins → Docker → K8s 자동 배포 파이프라인 구축
Rust Axum Tokio OpenSearch Redis Docker
AI/ML 15 posts

AI Agent 브라우저 자동화

4-Layer 아키텍처(Orchestrator → Planner → Navigator → Extractor)의 LLM 기반 브라우저 자동화 에이전트. MCP(Model Context Protocol)로 도구를 동적 등록하고, Playwright 기반 DOM 파싱 + CSS 셀렉터 신뢰도 점수 산정으로 웹 구조 변경에 강건한 자동화 시스템을 구축했다. 4일간 49커밋으로 프로토타입부터 프로덕션까지 완성했다.

  • Human-in-the-Loop 도입으로 태스크 완수율 30% → 95%로 향상
  • MCP 도구 호출 5.5배 감소 — 계획 단계에서 DOM 컨텍스트 사전 주입
  • 시나리오 레코더 → JSON 플레이북 → 반복 실행까지 no-code 자동화
TypeScript Python Playwright MCP LLM Next.js
Search 10 posts

NestJS 하이브리드 검색 엔진

14개월간 318커밋으로 발전시킨 커머스 하이브리드 검색 엔진. OpenSearch 키워드 검색 + Qdrant 384차원 벡터 시맨틱 검색을 RRF로 결합하고, LLM 기반 쿼리 확장(동의어/의도 분석)과 리랭킹 파이프라인으로 검색 정확도를 40% 향상시켰다. Nori 형태소 분석기로 한국어 용언을 감지하여 불필요한 GPT 호출을 제거, 응답 시간을 2~3초에서 300ms로 단축했다.

  • 시맨틱 검색 도입으로 검색 정확도 40% 향상 (키워드 미스매치 해결)
  • Nori 용언 감지로 GPT 호출 최적화 — 2~3s → 300ms 응답
  • 다중 테넌트 인덱스 설계 — 단일 클러스터에서 복수 쇼핑몰 검색 서비스
NestJS OpenSearch Qdrant Nori Python FastEmbed
Full Stack 10 posts

Tauri 2.0 AI 데스크톱 앱

Electron 대비 바이너리 크기 1/10, 메모리 사용량 1/3을 달성한 Tauri 2.0 기반 크로스 플랫폼 AI 데스크톱 앱. Remote WebView 아키텍처로 프론트엔드 빌드 없이 원격 서버 UI를 로컬 앱에 직접 렌더링하고, mistral.rs 기반 로컬 LLM 추론, Bore 터널을 통한 NAT traversal, 3가지 운영 모드(로컬/원격/하이브리드) 자동 전환을 구현했다.

  • Rust Sidecar 패턴 — Python 서비스를 앱과 함께 자동 기동/종료
  • Remote WebView로 프론트엔드 빌드 제거 — 배포 시간 단축
  • mistral.rs 로컬 LLM 추론 + Bore 터널 NAT traversal 자체 구현
Tauri 2.0 Rust React TypeScript mistral.rs
Search AI/ML 운영 사례

아이스크림몰 AI Search

교육전문 쇼핑몰(아이스크림몰)에 AI 검색 시스템을 구축하고 실 서비스로 운영한 사례. NestJS 기반 검색 엔진에 시맨틱 검색 + LLM 쿼리 확장을 적용하여 상품 검색 정확도를 개선했다. 피크 트래픽 5,000+ TPS를 안정적으로 처리하며, 이후 Rust 리라이트를 통해 운영 비용을 추가 절감했다.

  • 5,000+ TPS 피크 트래픽 안정 처리 — 실 서비스 무중단 운영
  • 시맨틱 검색으로 키워드 미스매치 해결 — 검색 전환율 개선
  • NestJS → Rust 리라이트로 메모리 1/5, 응답 30% 개선
NestJS Rust OpenSearch Nori LLM
04.

Tech Stack

Languages & Frameworks

Rust Python TypeScript Go Axum NestJS Next.js FastAPI Tauri React

AI / ML

vLLM llama.cpp Qdrant OpenSearch k-NN HuggingFace LangChain FAISS FastEmbed

Infrastructure & CI/CD

Kubernetes Docker K3s Redis Istio Jenkins ArgoCD GitHub Actions GitLab CI
05.

Timeline