OpenSearch 성능 벤치마크와 TPS별 서버 구성 가이드

워크로드 기준(TPS)에 따른 구성 사례

예상 TPS	사용 사례	CPU	RAM	구성 형태	벤치마크 참고
~10 TPS	내부 PoC, 팀 문서 검색	4 vCPU	8 GB	단일 노드	일반적으로 검색 응답 속도 약 30–100ms이다
10–50 TPS	쇼핑몰, 사내 검색 등	8 vCPU	16 GB	단일 클러스터, 벡터 가능	OpenSearch 3.0에서 벡터 처리 성능 2.5배 향상됨 (OpenSearch)
50–300 TPS	실시간 로그 분석, 실시간 상품 검색	16 vCPU	32 GB	다중 노드 구성 권장	2.17에서 저지연 응답 위해 동시 세그먼트 검색 도입
300+ TPS	실시간 광고 등 초고속 검색	32+ vCPU	64 GB 이상	샤드 분산, ML/GPU 노드 분리 필수	CCR 테스트에서 leader CPU 사용량만 12% 증가

TPS 범위	GPU 예시 사양	RTX 4090 대비 성능	주요 용도	가격 (온프레미스, 2025년 기준)
~10 TPS	NVIDIA T4 / L4 (16GB)	20–30% 수준	소규모 문서 검색, 팀 내 검색	T4: 약 $700(중고) (아마존), L4: 약 $2,000 추정 \|
10–50 TPS	NVIDIA A10 (24GB) / RTX 6000 Ada (48GB)	90–110% 수준	중소형 쇼핑몰 및 FAQ 검색	A10: 약 $3,000 (추정), RTX 6000 Ada: $5,000–6,000 \|
50–300 TPS	NVIDIA A100 40GB / 2×L40s	200–250% 이상	대용량 상품 검색, 병렬 ANN 처리	A100 40GB: $10,000–12,000 (simplepod.ai), L40s: $7,500–9,600 \|
300+ TPS	2×A100 80GB / 4×L40s / H100	300–400% 이상	초고속 검색, 글로벌 서비스	A100 80GB: $13,000–15,000 (Massed Compute); H100: $25,000 (Cyfuture Cloud, docs.jarvislabs.ai)

TPS 범위	GPU 예시 사양	RTX 4090 대비 성능	주요 용도	가격 (온프레미스, 2025년 기준)
~10 TPS	RTX 4090 (24GB) / NVIDIA L40	기준 성능 (100%)	Q&A 기반 검색, 단문 rerank	RTX 4090: $1,600 (MSRP) (Reddit, PC Gamer, Cyfuture Cloud); L40: $3,500–4,500 \|
10–50 TPS	A100 40GB / RTX 6000 Ada ×2	200–250% 수준	상품 검색 + LLM reranker 조합	A100: $10,000–12,000 (Business Insider, simplepod.ai); RTX 6000 Ada×2: $10,000–12,000 \|
50–300 TPS	2×A100 80GB / 4×L40s / H100	300–400% 이상	고난도 문서 분류, 멀티턴 rerank	A100 80GB: $13,000–15,000 (PC Gamer); H100: $25,000 (Cyfuture Cloud, docs.jarvislabs.ai)
300+ TPS	H100 4장 이상 또는 GPU 팜 구성	400% 이상	대규모 광고, 실시간 정밀 rerank 등	H100×4: $100,000+ (estimated from $25k each) (Massed Compute)

벤치마크에 따르면 OpenSearch 2.17은 1.3 대비 최대 6배 향상된 성능을 보였다 (AWS Documentation, OpenSearch, Instaclustr, Elastic, Cloudchipr, Redis, OpenSearch).
Vector Engine의 on‑disk 모드 사용 시 메모리를 97% 절감하면서도 P90 지연 100–200ms 수준 유지됨 (Amazon Web Services, Inc.).

OpenSearch 3.0에서 벡터 검색 성능이 2.5배 향상됨 (OpenSearch).
Elastic 社 BBQ vs OpenSearch FAISS 비교 결과, Elastic 제품이 최대 5배 빠름 (Elastic).
그러나 독립 벤치마크 결과 OpenSearch 2.17.1이 Elastic 8.15.4 대비 벡터 검색에서 P90 기준 11% 빠름 (The Trail of Bits Blog).

Trail of Bits 테스트에서 OpenSearch 2.17.1은 Big5 워크로드에서 Elastic 보다 1.6배 빠르고, 벡터 워크로드에서는 11% 더 빠른 성능을 보였다 (The Trail of Bits Blog).

AWS 벤치마크에 따르면, leader 노드의 CPU 사용률이 +12.4%, 90th percentile 인덱싱 지연이 +3.9% 증가했지만 검색 성능은 거의 영향 없었다 (Instaclustr).

Amazon OpenSearch Service에서 disk 모드 사용 시 메모리 97% 절감, P90 응답 100–200ms로 유지되며 비용 효율적임 (Amazon Web Services, Inc.).

TPS(트래픽)
- ~10 TPS: 4 vCPU/8GB
- 50–300 TPS: 16 vCPU/32GB, 다중 노드
- 300+ TPS: 32+ vCPU/64GB 이상, 클러스터 분리
색인 규모
- < 1M: 4 vCPU/8GB
- 1–10M: 8 vCPU/16GB
- 10–100M: 16 vCPU/64GB
-  100M: 32+ vCPU/128GB+, 분산 노드
검색 유형
- BM25: 경량 구성 가능
- 벡터/하이브리드: CPU 중심 2.5배 속도 향상
- RAG/AI 재랭킹: GPU 포함 ML 서버 별도 구성 추천
엔진·모드 선택
- on‑disk 모드로 메모리 최적화 (P90 200ms)
- concurrent segment search, disk‑optimized vector engine 사용