OpenSearch ML 모델 배포 시 메모리 99% 점유 원인과 해결법

Hugging Face embedding 모델을 OpenSearch에 배포(deploy)한 후 메모리가 급격히 차오르거나 꽉 차는 현상은 다음과 같은 이유에서 발생할 수 있다.

특히 ML Commons 기반 추론 또는 text_embedding processor를 사용할 때 다음 요소들을 반드시 확인해야 한다.

주요 원인 정리

Hugging Face 모델(sentence-transformers, bert-base, all-MiniLM 등)은 기본적으로 수백 MB ~ 수 GB 크기의 파라미터를 갖는다.
TorchScript나 ONNX 모델은 로드될 때 전체 모델 가중치가 JVM 힙 또는 native heap에 상주하게 되며, 일반적으로
- all-MiniLM-L6-v2: 약 400MB
- bert-base-uncased: 약 1.3GB
모델 하나당 최소 1~2GB 메모리가 필요하며, 여러 태스크나 동시 요청이 있으면 급격히 증가함.

embedding 작업이 batch 또는 비동기로 계속 쌓일 경우, 작업 큐가 비워지지 않으면 메모리 누적 현상 발생
특히:
- /_predict API 또는
- ingest pipeline에서 text_embedding processor로 문서를 다량 색인할 때

GET /_plugins/_ml/tasks

GET /_plugins/_ml/models/_all

GET /_nodes/stats/jvm,os,process

- plugins.ml_commons.max_ml_task_per_node=2
- plugins.ml_commons.native_memory_threshold=85

POST /_plugins/_ml/models/{model_id}/unload

원인	설명
모델이 크고 로딩 후 상주	기본적으로 모델은 언로드되지 않음
JVM 힙이 아닌 native 메모리 사용	PyTorch가 OS 메모리를 직접 사용함
추론 요청 쌓임	ML 태스크 큐가 과부하되면 memory leak처럼 보임
태스크 제한 설정 없음	한 노드에서 과도한 ML 요청 처리 중