요즘 소규모 프로젝트에서 시퀀스 길이가 최대 512 토큰 정도로 고정되어 있는데, 절대 위치 인코딩 대신 상대 위치 인코딩으로 바꿔서 실험 중입니다. 일반적으로 ALiBi나 RoPE 같은 방식들이 외삽성이 더 좋다고 알고 있는데, 실제로 fine-tuning할 때 성능 차이가 얼마나 나는지 궁금하네요.
혹시 비슷한 실험을 해보신 분 계신가요? 특히 작은 데이터셋에서는 오히려 절대 위치 인코딩이 수렴이 더 빠를 수도 있을 것 같은데, 이게 맞는 예상일까요? 논문에서는 큰 모델 기준으로 설명하다 보니까 작은 스케일에서의 trade-off는 찾기가 어렵더라고요.