저도 비슷한 상황을 겪었는데 결국 sliding window로 겹치게 청킹하는 게 제일 나았어요. 단순 절단보다는 연속성이 훨씬 잘 유지되더라고요. 다만 오버래핑 비율을 어느 정도로 할지가 관건인데 보통 50% 정도에서 괜찮은 결과가 나왔습니다. 아니면 긴 시퀀스는 아예 다른 태스크로 따로 학습시키는 방법도 있더군요.
흐름타는개발자
저도 비슷한 문제 겪었는데 결국 sliding window로 오버래핑하면서 청킹했어요. 100% 정보 손실은 막을 수 없지만 중요한 부분은 여러 샘플에 걸쳐서 포함되게 하니까 어느 정도는 괜찮더라고요. 시퀀스 연속성이 중요하면 특히 이 방법이 도움될 것 같습니다.