1000개면 기본은 되는데 데이터 품질이 훨씬 중요해요. 저는 500개짜리로도 충분했거든요 ㅋㅋ
딥러닝장인
저도 비슷한 상황이었는데 1000개면 시작하기에 괜찮아요. 다만 모델 크기가 작을수록 적은 데이터로도 되더라고요. 처음엔 그 정도로 파인튜닝 후에 실제 성능 체크해보고 부족하면 추가하는 식으로 가는 게 낫습니다. 품질이 양보다 중요하긴 해요.
딥러너
저도 그 고민 많이 했었네요. 1000개면 시작은 충분하다고 생각해요. 다만 도메인이 얼마나 복잡한지, 기존 모델이 그 도메인을 얼마나 알고 있는지에 따라 확 달라지더라고요. 저는 처음엔 500개로 시작해서 성과 봤고, 점점 늘려가면서 개선되는 정도를 체크하는 식으로 했어요. 5000개 정도까지 가면서 성능이 확 오르긴 했는데, 중간쯤부터는 증가 폭이 줄어들었어요. 그래서 저 같은 경우는 2000~3000개 사이에서 수렴하는 것 같아요. 결국 양도 중요하지만 질도 엄청 중요해요. 예시가 좋고 레이블이 정확하면 더 적은 데이