2026.06.12 접속자 165
로그인 회원가입
HOT
[프롬프트] AI한테 물어볼 때 자꾸 엉뚱한 답이 나오는데 프롬프트 문제인가요? [AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [AI뉴스] 요즘 오픈소스 모델들 진짜 후지지 않네요 [프롬프트] 실제 일할 때 쓰는 프롬프트 패턴 정리해봤습니다 [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [AI뉴스] 요즘 AI 회사들 자금 유치 진짜 미친 수준이더라고요 [프롬프트] AI한테 물어볼 때 자꾸 엉뚱한 답이 나오는데 프롬프트 문제인가요? [AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [AI뉴스] 요즘 오픈소스 모델들 진짜 후지지 않네요 [프롬프트] 실제 일할 때 쓰는 프롬프트 패턴 정리해봤습니다 [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [AI뉴스] 요즘 AI 회사들 자금 유치 진짜 미친 수준이더라고요

LLM 파인튜닝 처음 해보는데 이게 맞게 하고 있는 건가요?

딥러닝장인 2026.04.02 19:10 조회 113 추천 11 댓글 3건
최근에 회사에서 자체 데이터로 LLM을 파인튜닝해보라고 해서 시작했는데 뭔가 답답하네요. 기본적인 것부터 차근차근 해보고 있는데 혹시 제가 놓치고 있는 부분이 있을까봐 질문드립니다.

지금 하고 있는 건 GPT-3.5 기반으로 우리 회사 문서 데이터 약 500개를 JSONL 형식으로 정리해서 OpenAI API로 파인튜닝 돌리고 있어요. 기본 모델이랑 파인튜닝된 모델의 성능 비교는 손으로 몇 개씩 테스트해봤는데 확실히 답변이 우리 도메인에 맞춰진 느낌이 들더라고요.

그런데 헷갈리는 게 있어요. 데이터 전처리할 때 토크나이저를 따로 써야 하는 건가요? 아니면 OpenAI에서 자동으로 처리해주는 건가요? 튜토리얼 영상들이 다 달라서 어디를 따라가야 할지 모르겠습니다. 그리고 비용이 좀 많이 드는데 정말 500개 정도의 데이터로도 의미 있는 파인튜닝이 가능한가요? 더 필요하다는 얘기도 많이 보이거든요.

또 하나 신경 쓰이는 부분은 결과 검증이에요. 지금은 그냥 육안으로 "이건 좋네, 이건 좀 이상하네" 이렇게 하고 있는데 실제로는 어떤 메트릭으로 평가해야 하는지 궁금합니다. BLEU 스코어? ROUGE? 이런 게 있다고는 들었는데 실제로 도메인 특화 모델 성능을 평가할 때는 뭐를 써야 하나요?

경험 있으신 분들의 조언을 정말 감사히 듣고 싶습니다. 아직 배우는 과정이라 뭔가 틀린 부분도 있을 수 있는데 지적해주시면 좋겠습니다.
추천 11
댓글 3

댓글목록

profile_image
따뜻한코더
오픈에이 파인튜닝은 토크나이저 자동으로 처리해주니까 JSONL 형식만 맞춰도 괜찮습니다. 저도 처음엔 헷갈렸는데 문서 보니 그렇더라고요.
500개면 충분한 편이에요. 다만 질 좋은 데이터가 핵심이라고 봅니다. 저도 비슷하게 해봤는데 데이터 정제에 시간을 많이 쓰는 게 결과를 좌우하더라고요.
결과 검증은 저도 육안으로 하다가 ROUGE 점수 같은 걸로 정량화해봤습니다. 손으로 100개 정도만 검증해도 패턴이 보이더라고요.
profile_image
따뜻한코더
저도 똑같은 고민 중이에요 ㅠㅠ
profile_image
AI새싹
OpenAI API는 전처리를 자동으로 해주니까 JSONL 형식만 맞추면 됩니다. 토크나이저 따로 안 써도 괜찮아요.
500개 데이터로도 충분히 의미 있는 결과가 나옵니다. 다만 도메인에 따라 다르긴 한데, 질이 좋으면 충분하더라고요. 저도 비슷한 규모로 해봤는데 기본 모델과는 확실히 달라졌어요.
결과 검증은 육안도 중요하지만 정확도나 BLEU 스코어 같은 메트릭으로 측정해보는 게 좋습니다. 테스트 세트를 따로 떼어놨다면 그걸로 비교해보세요. 회사에서 쓸 거라면 더욱이요.