요즘 회사에서 특정 도메인용 챗봇을 만들어야 하는데 파인튜닝을 고민 중입니다. 근데 자료를 찾아보니까 의견들이 왔다갔다 하더라고요. 어떤 글은 1000개 데이터면 충분하다고 하고 어떤 글은 최소 10만 개는 필요하다고 하고요.
저희 팀에서 확보할 수 있는 데이터가 약 5000개 정도 되는데, 이 정도면 실무에서 의미 있는 성능 개선이 가능할까요? 그리고 파인튜닝 말고 프롬프트 엔지니어링으로 먼저 해보는 게 나을 수도 있을 것 같긴 한데 정확히 언제쯤 파인튜닝으로 넘어가야 하는지 판단 기준이 있나요?
또 하나 궁금한 게 모델 선택인데요. GPT-4를 파인튜닝할 수 없다는 건 알겠는데, GPT-3.5랑 오픈소스 모델(라마 같은) 중에서는 어떤 걸 선택하는 게 실제로는 유리한가요? 비용도 중요하고 성능도 중요하고 배포도 고려해야 하는데 트레이드오프를 어떻게 생각해야 할까요?
마지막으로 파인튜닝 후에 평가는 어떻게 하시나요? 테스트셋으로만 하면 되는 건지, 아니면 실제 프롬프트로 직접 써보면서 평가하는 게 더 중요한가요? 저희는 정량적 지표보다는 실제 사용자 만족도가 더 중요한 상황이라서요.