콘텐츠로 이동

AI/ML & LLM

AMD ROCm에서 llama.cpp를 돌리고, Qdrant 하이브리드 검색을 구성하고, vLLM과 llama-server 사이를 오가며 쌓은 기록이다. GPU 한 장으로 70B 모델을 서빙하려면 어디서 레이어를 끊어야 하는지, RAG 파이프라인에서 컨텍스트 윈도우를 어떻게 다루는지 — 실제 운영하면서 부딪힌 문제들을 다룬다.


XGEN 플랫폼 구축기

XGEN 2.0 AI 에이전트 플랫폼을 구축하며 쌓인 LLM 서빙, RAG, 임베딩, 워크플로우 관련 기록. llama.cpp ROCm부터 Qdrant 하이브리드 검색, SSE 스트리밍까지 20개 글.


모델 파인튜닝

GliNER NER 모델 파인튜닝, DPO/LoRA 학습, Kotaemon RAG 프레임워크 커스터마이징까지 — 모델을 직접 손보며 배운 것들.


LLM 서빙 프레임워크 비교

vLLM, SGLang, LMDeploy, llama.cpp — 어떤 프레임워크가 어떤 상황에 맞는지 비교 분석.