최근에 작은 규모 데이터로 모델 파인튜닝을 해봤는데, 데이터 양보다 질이 훨씬 중요하다는 걸 확실히 느꼈어요. 노이즈 있는 데이터 5000개랑 깔끔한 데이터 1000개를 써본 결과가 완전 달랐거든요.
특히 라벨링 일관성이 핵심인데, 같은 의미인데 다르게 표기된 데이터들 때문에 모델이 헷갈려하더라고요. 파인튜닝 들어가기 전에 데이터 정제하는 데 시간을 충분히 할 걸 그랬네요.
혹시 비슷한 경험 있으신 분들 계신가요? 데이터 품질 높이는 노하우 있으면 공유 부탁드립니다.
추천 0