저도 비슷한 상황이었는데, 결국 LoRA rank를 4에서 16으로 올렸더니 성능이 꽤 나아지더라고요. 물론 메모리는 좀 더 쓰지만 A100 하나면 충분했어요.
성능 차이를 정확히 판단하려면 같은 데이터셋으로 LoRA vs 풀튜닝을 직접 비교해봐야 할 것 같은데, 제 경험상 충분한 데이터(최소 5천개 이상)가 있으면 LoRA도 꽤 괜찮은 결과가 나왔습니다. Learning rate는 원본 학습률의 5-10배 정도 시도해봤는데 참고만 하세요.
성능 차이를 정확히 판단하려면 같은 데이터셋으로 LoRA vs 풀튜닝을 직접 비교해봐야 할 것 같은데, 제 경험상 충분한 데이터(최소 5천개 이상)가 있으면 LoRA도 꽤 괜찮은 결과가 나왔습니다. Learning rate는 원본 학습률의 5-10배 정도 시도해봤는데 참고만 하세요.