Tag: 메모리최적화
All the articles with the tag "메모리최적화".
-
Python 싱글턴 풀 패턴으로 배치 실행 메모리 누수 해결하기
RAG 워크플로우를 배치로 100건 이상 반복 실행할 때 발생하는 메모리 누수를 싱글턴 풀 패턴으로 해결한 과정. LLM 클라이언트, 검색 캐시, RAG 서비스의 객체 재사용 설계와 캐시 비활성화의 역설적 결정.
-
OpenSearch ML 모델 배포 시 메모리 99% 점유 원인과 해결법
OpenSearch에 Hugging Face 임베딩 모델을 배포한 후 메모리가 급격히 차오르는 원인을 분석한다. ML Commons 기반 추론의 모델 크기, JVM 힙, 동시 요청 처리, 노드 역할 분리 등 해결 전략을 정리한다.