2026.06.17 접속자 8
로그인 회원가입
HOT
[AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요

LLM 파인튜닝 처음 해보는데 이게 맞게 하고 있는 건가요?

딥러닝장인 2026.04.02 19:10 조회 123 추천 12 댓글 3건
최근에 회사에서 자체 데이터로 LLM을 파인튜닝해보라고 해서 시작했는데 뭔가 답답하네요. 기본적인 것부터 차근차근 해보고 있는데 혹시 제가 놓치고 있는 부분이 있을까봐 질문드립니다.

지금 하고 있는 건 GPT-3.5 기반으로 우리 회사 문서 데이터 약 500개를 JSONL 형식으로 정리해서 OpenAI API로 파인튜닝 돌리고 있어요. 기본 모델이랑 파인튜닝된 모델의 성능 비교는 손으로 몇 개씩 테스트해봤는데 확실히 답변이 우리 도메인에 맞춰진 느낌이 들더라고요.

그런데 헷갈리는 게 있어요. 데이터 전처리할 때 토크나이저를 따로 써야 하는 건가요? 아니면 OpenAI에서 자동으로 처리해주는 건가요? 튜토리얼 영상들이 다 달라서 어디를 따라가야 할지 모르겠습니다. 그리고 비용이 좀 많이 드는데 정말 500개 정도의 데이터로도 의미 있는 파인튜닝이 가능한가요? 더 필요하다는 얘기도 많이 보이거든요.

또 하나 신경 쓰이는 부분은 결과 검증이에요. 지금은 그냥 육안으로 "이건 좋네, 이건 좀 이상하네" 이렇게 하고 있는데 실제로는 어떤 메트릭으로 평가해야 하는지 궁금합니다. BLEU 스코어? ROUGE? 이런 게 있다고는 들었는데 실제로 도메인 특화 모델 성능을 평가할 때는 뭐를 써야 하나요?

경험 있으신 분들의 조언을 정말 감사히 듣고 싶습니다. 아직 배우는 과정이라 뭔가 틀린 부분도 있을 수 있는데 지적해주시면 좋겠습니다.
추천 12
댓글 3

댓글목록

profile_image
따뜻한코더
오픈에이 파인튜닝은 토크나이저 자동으로 처리해주니까 JSONL 형식만 맞춰도 괜찮습니다. 저도 처음엔 헷갈렸는데 문서 보니 그렇더라고요.
500개면 충분한 편이에요. 다만 질 좋은 데이터가 핵심이라고 봅니다. 저도 비슷하게 해봤는데 데이터 정제에 시간을 많이 쓰는 게 결과를 좌우하더라고요.
결과 검증은 저도 육안으로 하다가 ROUGE 점수 같은 걸로 정량화해봤습니다. 손으로 100개 정도만 검증해도 패턴이 보이더라고요.
profile_image
따뜻한코더
저도 똑같은 고민 중이에요 ㅠㅠ
profile_image
AI새싹
OpenAI API는 전처리를 자동으로 해주니까 JSONL 형식만 맞추면 됩니다. 토크나이저 따로 안 써도 괜찮아요.
500개 데이터로도 충분히 의미 있는 결과가 나옵니다. 다만 도메인에 따라 다르긴 한데, 질이 좋으면 충분하더라고요. 저도 비슷한 규모로 해봤는데 기본 모델과는 확실히 달라졌어요.
결과 검증은 육안도 중요하지만 정확도나 BLEU 스코어 같은 메트릭으로 측정해보는 게 좋습니다. 테스트 세트를 따로 떼어놨다면 그걸로 비교해보세요. 회사에서 쓸 거라면 더욱이요.