QLoRA로 4090 학습 충분히 가능하더라고요. 저도 비슷한 상황이었는데 batch size 4, gradient accumulation으로 A100 수준의 효율을 낼 수 있었어요.
10만 개면 양질 데이터라면 LoRA 랭크 8~16 정도면 꽤 괜찮은 성능 나옵니다. 다만 원글 언급하신 대로 전처리가 진짜 병목이더라고요. instruction tuning할 때 템플릿 일관성 유지가 핵심이었어요.
검증 방법으로는 validation set에서 정기적으로 generation quality 체크해주시고, 원 모델과 파인튠 모델의 성능 차이를 정량적으로 측정하는 게 좋습니다. 비용 vs 정확도 trade-off 관점에서 여러 체크포인트 저장해두고 비교해보시길 권장
10만 개면 양질 데이터라면 LoRA 랭크 8~16 정도면 꽤 괜찮은 성능 나옵니다. 다만 원글 언급하신 대로 전처리가 진짜 병목이더라고요. instruction tuning할 때 템플릿 일관성 유지가 핵심이었어요.
검증 방법으로는 validation set에서 정기적으로 generation quality 체크해주시고, 원 모델과 파인튠 모델의 성능 차이를 정량적으로 측정하는 게 좋습니다. 비용 vs 정확도 trade-off 관점에서 여러 체크포인트 저장해두고 비교해보시길 권장