2026.04.21 접속자 17
로그인 회원가입
HOT
[AI뉴스] 2025년 전체 벤처 투자금의 48%가 AI 분야로 편중되고 있다는 걸 알았나요? [AI뉴스] 2026년 벌써 AI 투자 열풍인데 우리나라 스타트업도 잘 되고 있네요 [프롬프트] 마케팅 카피 작성할 때 쓰는 프롬프트 공유합니다 [프롬프트] GPT한테 "역할 정하고 시작하기" 프롬프트 효과 진짜 좋네요 [프롬프트] Claude 프롬프트로 코드리뷰 받아보신 분 계신가요? [프롬프트] Claude에 이 프롬프트 박으니까 코드리뷰가 확 달라졌어요 [프롬프트] Claude 프롬프트로 코드 리뷰 자동화해보니 정말 쓸만하네요 [AI뉴스] AI 기본법 1월 22일 시행된다는데 회사에서 아직도 아무것도 안 하네요 [AI뉴스] 글로벌 AI 규제 바뀌는데, 한국도 한발 물러서 있을 건 아니겠지? [AI뉴스] 4월 AI 뉴스 정리... 한국도 기술력 세계 3위 수준이라는데 들으셨어요? [AI뉴스] 2025년 전체 벤처 투자금의 48%가 AI 분야로 편중되고 있다는 걸 알았나요? [AI뉴스] 2026년 벌써 AI 투자 열풍인데 우리나라 스타트업도 잘 되고 있네요 [프롬프트] 마케팅 카피 작성할 때 쓰는 프롬프트 공유합니다 [프롬프트] GPT한테 "역할 정하고 시작하기" 프롬프트 효과 진짜 좋네요 [프롬프트] Claude 프롬프트로 코드리뷰 받아보신 분 계신가요? [프롬프트] Claude에 이 프롬프트 박으니까 코드리뷰가 확 달라졌어요 [프롬프트] Claude 프롬프트로 코드 리뷰 자동화해보니 정말 쓸만하네요 [AI뉴스] AI 기본법 1월 22일 시행된다는데 회사에서 아직도 아무것도 안 하네요 [AI뉴스] 글로벌 AI 규제 바뀌는데, 한국도 한발 물러서 있을 건 아니겠지? [AI뉴스] 4월 AI 뉴스 정리... 한국도 기술력 세계 3위 수준이라는데 들으셨어요?

LLM 파인튜닝 처음 해보는데 이게 맞게 하고 있는 건가요?

딥러닝장인 2026.04.02 19:10 조회 31 추천 7 댓글 1건
최근에 회사에서 자체 데이터로 LLM을 파인튜닝해보라고 해서 시작했는데 뭔가 답답하네요. 기본적인 것부터 차근차근 해보고 있는데 혹시 제가 놓치고 있는 부분이 있을까봐 질문드립니다.

지금 하고 있는 건 GPT-3.5 기반으로 우리 회사 문서 데이터 약 500개를 JSONL 형식으로 정리해서 OpenAI API로 파인튜닝 돌리고 있어요. 기본 모델이랑 파인튜닝된 모델의 성능 비교는 손으로 몇 개씩 테스트해봤는데 확실히 답변이 우리 도메인에 맞춰진 느낌이 들더라고요.

그런데 헷갈리는 게 있어요. 데이터 전처리할 때 토크나이저를 따로 써야 하는 건가요? 아니면 OpenAI에서 자동으로 처리해주는 건가요? 튜토리얼 영상들이 다 달라서 어디를 따라가야 할지 모르겠습니다. 그리고 비용이 좀 많이 드는데 정말 500개 정도의 데이터로도 의미 있는 파인튜닝이 가능한가요? 더 필요하다는 얘기도 많이 보이거든요.

또 하나 신경 쓰이는 부분은 결과 검증이에요. 지금은 그냥 육안으로 "이건 좋네, 이건 좀 이상하네" 이렇게 하고 있는데 실제로는 어떤 메트릭으로 평가해야 하는지 궁금합니다. BLEU 스코어? ROUGE? 이런 게 있다고는 들었는데 실제로 도메인 특화 모델 성능을 평가할 때는 뭐를 써야 하나요?

경험 있으신 분들의 조언을 정말 감사히 듣고 싶습니다. 아직 배우는 과정이라 뭔가 틀린 부분도 있을 수 있는데 지적해주시면 좋겠습니다.
추천 7
댓글 1

댓글목록

profile_image
따뜻한코더
오픈에이 파인튜닝은 토크나이저 자동으로 처리해주니까 JSONL 형식만 맞춰도 괜찮습니다. 저도 처음엔 헷갈렸는데 문서 보니 그렇더라고요.
500개면 충분한 편이에요. 다만 질 좋은 데이터가 핵심이라고 봅니다. 저도 비슷하게 해봤는데 데이터 정제에 시간을 많이 쓰는 게 결과를 좌우하더라고요.
결과 검증은 저도 육안으로 하다가 ROUGE 점수 같은 걸로 정량화해봤습니다. 손으로 100개 정도만 검증해도 패턴이 보이더라고요.