Tag: AI
All the articles with the tag "AI".
-
LLM 멀티턴 vs 싱글턴 대화: 차이점과 구현 전략
LLM 기반 챗봇에서 멀티턴(Multi-turn)과 싱글턴(Single-turn) 대화 방식의 차이를 정리한다. 대화 컨텍스트 유지, KV Cache 관리, 토큰 예산 전략까지.
-
SGLang vs vLLM 비교: LLM 추론 프레임워크 선택 가이드
UC 버클리에서 개발된 SGLang과 vLLM의 아키텍처, 처리량, 지연 시간, 메모리 효율을 비교 분석한다. RadixAttention vs PagedAttention, 배치 스케줄링 전략 차이까지.
-
Scaled Dot-Product Attention 동작 원리와 수식 정리
스케일드 닷 프로덕트 어텐션은 쿼리(Query), 키(Key), 밸류(Value) 삼중 구조를 사용해, 유사도 계산 → 스케일 조정 → 확률 정규화 → 가중합의 네 단계를 거쳐 문맥 정보를 추출하는 어텐션 메커니즘이다.
-
셀프 어텐션(Self-Attention) 동작 과정 단계별 정리
셀프 어텐션은 입력 시퀀스 내부에서 각 토큰이 다른 모든 토큰과의 관계를 학습해 문맥 정보를 재구성하는 메커니즘이다. 이 과정을 거친 출력은 이후 피드포워드 네트워크나 다음 레이어로 전달되어 문장 수준의 의미를 정교하게 표현하게 된다.