저도 비슷한 실험 했는데 512 토큰 정도면 솔직히 절대 위치와 상대 위치 성능 차이가 거의 안 나더라고요. 오히려 절대 위치가 수렴이 더 빠른 게 맞는 것 같아요. 작은 데이터셋에서는 더욱 그렇고요.
ALiBi 시도해봤는데 외삽성은 좋지만 이 정도 스케일에선 오버스펙인 느낌이었어요. 차라리 간단한 Fourier encoding 정도가 가성비 좋더라고요.
혹시 fine-tuning 과정에서 learning rate 어떻게 잡으셨어요? 포지션 인코딩 방식보다 그게 더 영향 큰 것 같긴 한데요.
ALiBi 시도해봤는데 외삽성은 좋지만 이 정도 스케일에선 오버스펙인 느낌이었어요. 차라리 간단한 Fourier encoding 정도가 가성비 좋더라고요.
혹시 fine-tuning 과정에서 learning rate 어떻게 잡으셨어요? 포지션 인코딩 방식보다 그게 더 영향 큰 것 같긴 한데요.