오픈에이 파인튜닝은 토크나이저 자동으로 처리해주니까 JSONL 형식만 맞춰도 괜찮습니다. 저도 처음엔 헷갈렸는데 문서 보니 그렇더라고요.
500개면 충분한 편이에요. 다만 질 좋은 데이터가 핵심이라고 봅니다. 저도 비슷하게 해봤는데 데이터 정제에 시간을 많이 쓰는 게 결과를 좌우하더라고요.
결과 검증은 저도 육안으로 하다가 ROUGE 점수 같은 걸로 정량화해봤습니다. 손으로 100개 정도만 검증해도 패턴이 보이더라고요.
500개면 충분한 편이에요. 다만 질 좋은 데이터가 핵심이라고 봅니다. 저도 비슷하게 해봤는데 데이터 정제에 시간을 많이 쓰는 게 결과를 좌우하더라고요.
결과 검증은 저도 육안으로 하다가 ROUGE 점수 같은 걸로 정량화해봤습니다. 손으로 100개 정도만 검증해도 패턴이 보이더라고요.