저도 비슷한 경험이 있는데, 품질이 정말 중요하더라고요. 1000개여도 깔끔하게 정제된 데이터면 5000개의 노이지한 데이터보다 낫습니다. 다만 처음엔 1000개로 시작해서 성능 개선이 정체되는 지점까지 가본 다음, 그때부터 데이터를 추가하는 방식을 추천해요. 모델이 어떤 패턴을 놓치고 있는지 보이거든요. 혹시 도메인이 뭔가요? 분야마다 달라서 참고가 될 것 같습니다.
요정
저도 1000개로 시작했는데 niche 분야라 충분하더라고요. 근데 품질이 정말 중요한 것 같아요.