저도 같은 부분 고민 많았는데, 결국 동적 패딩(dynamic padding)으로 처리하는 게 제일 효율적더라고요. 배치 내에서만 최대 길이에 맞추면 불필요한 연산을 많이 줄일 수 있어요.
MLM할 땐 padding mask와 MLM mask를 분리해서 적용하는 게 중요해요. 패딩 토큰은 애초에 attention에서 제외시키고, MLM mask는 학습 목표 달성을 위해 별도로 처리하는 식으로요. HuggingFace 라이브러리 쓰면 이 부분이 자동으로 처리돼서 편하더라고요.
MLM할 땐 padding mask와 MLM mask를 분리해서 적용하는 게 중요해요. 패딩 토큰은 애초에 attention에서 제외시키고, MLM mask는 학습 목표 달성을 위해 별도로 처리하는 식으로요. HuggingFace 라이브러리 쓰면 이 부분이 자동으로 처리돼서 편하더라고요.