2026.06.12 접속자 10
로그인 회원가입
HOT
[AI뉴스] 요즘 LLM 시장 진짜 미치는 수준인데... Llama 4, Gemma 3 나오면서 뭐가 대세인지 헷갈려요 [프롬프트] AI한테 물어볼 때 자꾸 엉뚱한 답이 나오는데 프롬프트 문제인가요? [AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [AI뉴스] 요즘 오픈소스 모델들 진짜 후지지 않네요 [프롬프트] 실제 일할 때 쓰는 프롬프트 패턴 정리해봤습니다 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [AI뉴스] 요즘 LLM 시장 진짜 미치는 수준인데... Llama 4, Gemma 3 나오면서 뭐가 대세인지 헷갈려요 [프롬프트] AI한테 물어볼 때 자꾸 엉뚱한 답이 나오는데 프롬프트 문제인가요? [AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [AI뉴스] 요즘 오픈소스 모델들 진짜 후지지 않네요 [프롬프트] 실제 일할 때 쓰는 프롬프트 패턴 정리해봤습니다 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중
파인튜닝

Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요?

딥러너 2026.06.09 22:01 조회 12 추천 1 댓글 0건
요즘 소규모 프로젝트에서 시퀀스 길이가 최대 512 토큰 정도로 고정되어 있는데, 절대 위치 인코딩 대신 상대 위치 인코딩으로 바꿔서 실험 중입니다. 일반적으로 ALiBi나 RoPE 같은 방식들이 외삽성이 더 좋다고 알고 있는데, 실제로 fine-tuning할 때 성능 차이가 얼마나 나는지 궁금하네요.

혹시 비슷한 실험을 해보신 분 계신가요? 특히 작은 데이터셋에서는 오히려 절대 위치 인코딩이 수렴이 더 빠를 수도 있을 것 같은데, 이게 맞는 예상일까요? 논문에서는 큰 모델 기준으로 설명하다 보니까 작은 스케일에서의 trade-off는 찾기가 어렵더라고요.

혹시 최근에 해본 경험이나 참고할 만한 자료가 있으면 추천 부탁드립니다.
추천 1 비추천 0
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!