Scaled Dot-Product Attention 동작 원리와 수식 정리

스케일드 닷 프로덕트 어텐션은 쿼리(Query), 키(Key), 밸류(Value) 삼중 구조를 사용해, 유사도 계산 → 스케일 조정 → 확률 정규화 → 가중합의 네 단계를 거쳐 문맥 정보를 추출하는 어텐션 메커니즘이다.

14 Jul, 2025

Views 000

스케일드 닷 프로덕트 어텐션은 쿼리(Query), 키(Key), 밸류(Value) 삼중 구조를 사용해, 유사도 계산 → 스케일 조정 → 확률 정규화 → 가중합의 네 단계를 거쳐 문맥 정보를 추출하는 어텐션 메커니즘이다.

트랜스포머 계열 모델에서 기본 블록으로 채택되는 이유는 계산 효율성과 병렬화 용이성에 있다.

1. 입력 구성 단계

입력 시퀀스의 각 토큰 임베딩을 쿼리, 키, 밸류로 독립 투영한다.
쿼리는 “질문자”, 키는 “후보 답변자”, 밸류는 “실제 답변 내용” 역할을 담당한다.

2. Dot-Product 유사도 계산 단계

한 토큰의 쿼리와 모든 토큰의 키 간에 내적(닷 프로덕트)을 수행해 유사도 행렬을 만든다.
내적은 두 벡터의 방향 유사도를 단일 숫자로 빠르게 환산하므로, 대규모 시퀀스에서 효율적이다.

3. 스케일링 단계

키 벡터 차원의 제곱근으로 유사도 값을 나누어 스케일을 조정한다.
차원이 클수록 내적값이 과도하게 커져 소프트맥스가 한두 항목에만 치우치는 현상이 생기므로, 이를 방지해 학습 안정성을 높인다.

4. 소프트맥스 정규화 단계

스케일링된 유사도 행렬에 소프트맥스를 적용해 각 행이 0~1 확률 분포가 되도록 만든다.
결과 분포는 “각 토큰이 다른 토큰에 얼마만큼 주목할지”를 나타내는 가중치 역할을 한다.

5. 가중합 단계

정규화된 가중치를 밸류 벡터에 곱해 가중합을 수행한다.
이 가중합 결과가 바로 각 토큰이 시퀀스 전체 문맥을 반영해 새로 얻은 표현(어텐션 결과)이다.

핵심 특징 정리

구분	목적	효과
닷 프로덕트	토큰 간 유사도 산출	계산량이 작고 GPU 병렬화에 적합하다
스케일링	큰 차원에서의 값 폭주 방지	그래디언트 안정성 확보
소프트맥스	가중치 확률 분포화	직관적 해석·역전파 용이
밸류 가중합	문맥 정보 결합	입력 토큰을 문맥 기반으로 재표현

스케일드 닷 프로덕트 어텐션은 이렇듯 “유사도 측정 → 스케일 조정 → 확률화 → 문맥 통합”의 명확한 절차를 통해, 입력 시퀀스 내부 관계를 효과적으로 모델링하는 핵심 구성 요소이다.

글 공유:

Qdrant Vectors — Dense, Sparse, Multivector 벡터 유형 가이드

셀프 어텐션(Self-Attention) 동작 과정 단계별 정리