금융은 확실히 품질이 우선이어야 할 것 같아요. 저도 비슷한 프로젝트 했는데 5만 개 노이즈 섞인 데이터보다 5천 개 깔끔한 데이터가 validation 성능이 훨씬 좋더라고요. 특히 금융처럼 오류 하나가 큰 도메인은 더욱 그렇고요.
차라리 먼저 5천 개로 베이스라인 잡고 필요한 부분만 조금씩 추가하는 게 나을 것 같습니다. 자동화 데이터는 나중에 증강용으로 쓰셔도 늦지 않으니까요.
차라리 먼저 5천 개로 베이스라인 잡고 필요한 부분만 조금씩 추가하는 게 나을 것 같습니다. 자동화 데이터는 나중에 증강용으로 쓰셔도 늦지 않으니까요.