Skip to content
SON BLOG
Go back

셀프 어텐션(Self-Attention) 동작 과정 단계별 정리

Edit page

셀프 어텐션, 왜 중요한가

셀프 어텐션은 입력 시퀀스 내부에서 각 토큰이 다른 모든 토큰과의 관계를 학습해 문맥 정보를 재구성하는 메커니즘이다. 이 과정을 거친 출력은 이후 피드포워드 네트워크나 다음 레이어로 전달되어 문장 수준의 의미를 정교하게 표현하게 된다.

0단계. 쿼리(Query)·키(Key)·밸류(Value) 추출 단계

1단계. 쿼리–키 내적 연산 단계

2단계. 스케일링(√dk로 나누기) 단계

3단계. 소프트맥스 정규화 단계

4단계. 어텐션 가중합(Z) 계산 단계

0단계에서 쿼리·키·밸류를 분리 투영하고, 1단계와 2단계에서 유사도를 안정적으로 계산하며, 3단계에서 정규화된 가중치를 만들고, 4단계에서 문맥이 반영된 표현을 얻게 되는 흐름이 셀프 어텐션의 핵심이다.

이러한 단계적 설계 덕분에 트랜스포머 모델은 긴 문장에서도 관계를 효과적으로 학습하고, 번역·요약·질문 답변 등 다양한 자연어 처리 과제에서 높은 성능을 발휘하게 된다.


Edit page
Share this post:

Previous Post
Scaled Dot-Product Attention 동작 원리와 수식 정리
Next Post
Transformer의 Query, Key, Value 행렬 생성 과정