Skip to content
SON BLOG
Go back

OpenSearch 성능 벤치마크와 TPS별 서버 구성 가이드

Edit page

워크로드 기준(TPS)에 따른 구성 사례

예상 TPS사용 사례CPURAM구성 형태벤치마크 참고
~10 TPS내부 PoC, 팀 문서 검색4 vCPU8 GB단일 노드일반적으로 검색 응답 속도 약 30–100ms이다
10–50 TPS쇼핑몰, 사내 검색 등8 vCPU16 GB단일 클러스터, 벡터 가능OpenSearch 3.0에서 벡터 처리 성능 2.5배 향상됨 (OpenSearch)
50–300 TPS실시간 로그 분석, 실시간 상품 검색16 vCPU32 GB다중 노드 구성 권장2.17에서 저지연 응답 위해 동시 세그먼트 검색 도입
300+ TPS실시간 광고 등 초고속 검색32+ vCPU64 GB 이상샤드 분산, ML/GPU 노드 분리 필수CCR 테스트에서 leader CPU 사용량만 12% 증가

GPU: 단순 임베딩 기반 K‑NN 검색용

TPS 범위GPU 예시 사양RTX 4090 대비 성능주요 용도가격 (온프레미스, 2025년 기준)
~10 TPSNVIDIA T4 / L4 (16GB)20–30% 수준소규모 문서 검색, 팀 내 검색T4: 약 $700(중고) (아마존), L4: 약 $2,000 추정 |
10–50 TPSNVIDIA A10 (24GB) / RTX 6000 Ada (48GB)90–110% 수준중소형 쇼핑몰 및 FAQ 검색A10: 약 $3,000 (추정), RTX 6000 Ada: $5,000–6,000 |
50–300 TPSNVIDIA A100 40GB / 2×L40s200–250% 이상대용량 상품 검색, 병렬 ANN 처리A100 40GB: $10,000–12,000 (simplepod.ai), L40s: $7,500–9,600 |
300+ TPS2×A100 80GB / 4×L40s / H100300–400% 이상초고속 검색, 글로벌 서비스A100 80GB: $13,000–15,000 (Massed Compute); H100: $25,000 (Cyfuture Cloud, docs.jarvislabs.ai)

GPU: Reranker 포함 (LLM 후처리) 검색용

TPS 범위GPU 예시 사양RTX 4090 대비 성능주요 용도가격 (온프레미스, 2025년 기준)
~10 TPSRTX 4090 (24GB) / NVIDIA L40기준 성능 (100%)Q&A 기반 검색, 단문 rerankRTX 4090: $1,600 (MSRP) (Reddit, PC Gamer, Cyfuture Cloud); L40: $3,500–4,500 |
10–50 TPSA100 40GB / RTX 6000 Ada ×2200–250% 수준상품 검색 + LLM reranker 조합A100: $10,000–12,000 (Business Insider, simplepod.ai); RTX 6000 Ada×2: $10,000–12,000 |
50–300 TPS2×A100 80GB / 4×L40s / H100300–400% 이상고난도 문서 분류, 멀티턴 rerankA100 80GB: $13,000–15,000 (PC Gamer); H100: $25,000 (Cyfuture Cloud, docs.jarvislabs.ai)
300+ TPSH100 4장 이상 또는 GPU 팜 구성400% 이상대규모 광고, 실시간 정밀 rerank 등H100×4: $100,000+ (estimated from $25k each) (Massed Compute)

색인 규모 기준 사례

색인 규모문서 수구성 추천
< 1 M수십만 문서4 vCPU, 8 GB
1–10 M뉴스·상품8 vCPU, 16 GB
10–100 M로그, 대규모 상품16 vCPU, 64 GB, 복수 노드
> 100 MSIEM, 빅데이터32+ vCPU, 128 GB+, 완전 분산

벡터 검색 및 엔진 비교 성능

실제 사례 추가

사례 1: Elastic vs OpenSearch 비교 테스트

Trail of Bits 테스트에서 OpenSearch 2.17.1은 Big5 워크로드에서 Elastic 보다 1.6배 빠르고, 벡터 워크로드에서는 11% 더 빠른 성능을 보였다 (The Trail of Bits Blog).

사례 2: CCR(교차 클러스터 복제) 영향

AWS 벤치마크에 따르면, leader 노드의 CPU 사용률이 +12.4%, 90th percentile 인덱싱 지연이 +3.9% 증가했지만 검색 성능은 거의 영향 없었다 (Instaclustr).

사례 3: Disk‑optimized 벡터 엔진 사례

Amazon OpenSearch Service에서 disk 모드 사용 시 메모리 97% 절감, P90 응답 100–200ms로 유지되며 비용 효율적임 (Amazon Web Services, Inc.).

요약: 기준 및 구성 예시 정리

  1. TPS(트래픽)

    • ~10 TPS: 4 vCPU/8GB

    • 50–300 TPS: 16 vCPU/32GB, 다중 노드

    • 300+ TPS: 32+ vCPU/64GB 이상, 클러스터 분리

  2. 색인 규모

    • < 1M: 4 vCPU/8GB

    • 1–10M: 8 vCPU/16GB

    • 10–100M: 16 vCPU/64GB

    •  100M: 32+ vCPU/128GB+, 분산 노드

  3. 검색 유형

    • BM25: 경량 구성 가능

    • 벡터/하이브리드: CPU 중심 2.5배 속도 향상

    • RAG/AI 재랭킹: GPU 포함 ML 서버 별도 구성 추천

  4. 엔진·모드 선택

    • on‑disk 모드로 메모리 최적화 (P90 200ms)

    • concurrent segment search, disk‑optimized vector engine 사용


Edit page
Share this post:

Previous Post
단일 서버에서 OpenSearch 최적 배포 — 노드 역할 분리와 자원 격리
Next Post
목적에 맞는 OpenSearch Docker Compose 구성