요즘 자사 데이터로 LLM을 파인튜닝해볼 생각 중인데 데이터셋 규모를 어떻게 정해야 할지 막혀있어요. 일단 도메인 특화 모델을 만들려고 하는데 대충 몇 천 개 정도는 있으면 되나요?
그리고 LoRA로 파인튜닝하는 게 처음부터 전체 파라미터를 학습하는 것보다 비용 면에서 훨씬 낫다고 봤는데, 작은 규모 데이터셋에는 LoRA가 더 적합한 건가요? 아니면 데이터 크기와는 별개의 문제인가요?
마지막으로 혹시 파인튜닝할 때 주의할 점이 있으면 알려주세요. 과적합 이슈는 작은 데이터셋에서 더 심하다고 하던데 어떻게 관리하는지 궁금합니다.
추천 1