유튜브랑 블로그로 독학 중인데 attention mechanism은 대충 이해가 가는데, transformer 전체 구조를 보면 자꾸 헷갈리네요. 특히 encoder-decoder 부분에서 query, key, value가 어디서 어디로 들어가는지 구체적으로 이해가 안 돼요.
지금까지 본 설명들은 다 수식으로만 나와있거나 너무 추상적이어서 실제 코드 레벨에서 뭐가 어떻게 흘러가는지 감이 안 와요. 혹시 초보자 입장에서 이해하기 좋은 자료나 영상 추천해주실 분 있나요?