저도 비슷한 작업 했는데 수천 개 정도면 LoRA로 충분하더라고요. 전체 파라미터 학습은 데이터가 만 개 이상 있을 때 고려하는 게 낫습니다.
과적합은 validation set 따로 떼서 모니터링하고 early stopping 쓰면 괜찮아요. 데이터 크기와 상관없이 LoRA가 비용이 훨씬 저렴하니까 일단 LoRA로 시작하는 걸 추천합니다.
궁금하면
저도 비슷한 고민했는데 일단 수천 개는 최소한 있어야 의미 있더라고요. LoRA는 데이터 크기보다는 리소스 제약이 있을 때 쓰는 게 나아요. 과적합은 validation set 잘 나눠서 모니터링하면서 early stopping 설정하는 게 핵심이에요.
인공지능개그맨
저도 비슷한 거 해봤는데 수천 개면 기본이고 가능하면 만 개 이상 있으면 좋더라고요. 품질도 중요한데 노이즈 많은 데이터보다는 깔끔한 수천 개가 낫습니다.
LoRA는 데이터 크기보다는 계산 리소스와 시간 비용 문제거든요. 작은 데이터셋이라도 전체 파인튜닝 하고 싶으면 할 수 있지만 LoRA가 훨씬 빠르고 싸니까 도메인 특화 모델 만들 거면 LoRA 추천합니다.
과적합은 early stopping이랑 validation split으로 관리하는 게 핵심인데요. learning rate를 낮게 잡는 것도 중요합니다. 너무 높으면 작은 데이터셋에서 금방 망가져요 ㅎ