Skip to content
SON BLOG
Go back

Scaled Dot-Product Attention 동작 원리와 수식 정리

Edit page

스케일드 닷 프로덕트 어텐션은 쿼리(Query), 키(Key), 밸류(Value) 삼중 구조를 사용해, 유사도 계산 → 스케일 조정 → 확률 정규화 → 가중합의 네 단계를 거쳐 문맥 정보를 추출하는 어텐션 메커니즘이다.

트랜스포머 계열 모델에서 기본 블록으로 채택되는 이유는 계산 효율성과 병렬화 용이성에 있다.

1. 입력 구성 단계

2. Dot-Product 유사도 계산 단계

3. 스케일링 단계

4. 소프트맥스 정규화 단계

5. 가중합 단계

핵심 특징 정리

구분목적효과
닷 프로덕트토큰 간 유사도 산출계산량이 작고 GPU 병렬화에 적합하다
스케일링큰 차원에서의 값 폭주 방지그래디언트 안정성 확보
소프트맥스가중치 확률 분포화직관적 해석·역전파 용이
밸류 가중합문맥 정보 결합입력 토큰을 문맥 기반으로 재표현

스케일드 닷 프로덕트 어텐션은 이렇듯 “유사도 측정 → 스케일 조정 → 확률화 → 문맥 통합”의 명확한 절차를 통해, 입력 시퀀스 내부 관계를 효과적으로 모델링하는 핵심 구성 요소이다.


Edit page
Share this post:

Previous Post
Qdrant Vectors — Dense, Sparse, Multivector 벡터 유형 가이드
Next Post
셀프 어텐션(Self-Attention) 동작 과정 단계별 정리