2026.06.20 접속자 40
로그인 회원가입
HOT
[AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] 요즘 AI 업계 움직임이 심심치 않네요... 최신 소식 정리해봤습니다 [AI뉴스] AI 에이전트가 핫한데 보안 문제가 심각하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 미쳤더라고요 [프롬프트] 업무 자동화 프롬프트 만드는데 자꾸 실패하는데 뭐가 문제일까요? [프롬프트] 실무에서 쓸 만한 프롬프트 공유해주실 분 있나요? [AI뉴스] 요즘 AI 기업들 정신 차렸나요? 규제와 반독점 조사 줄줄이네요 [기술 Q&A] LLM 파인튜닝 할 때 LoRA vs Full Fine-tuning 뭐가 낫나요? [AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] 요즘 AI 업계 움직임이 심심치 않네요... 최신 소식 정리해봤습니다 [AI뉴스] AI 에이전트가 핫한데 보안 문제가 심각하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 미쳤더라고요 [프롬프트] 업무 자동화 프롬프트 만드는데 자꾸 실패하는데 뭐가 문제일까요? [프롬프트] 실무에서 쓸 만한 프롬프트 공유해주실 분 있나요? [AI뉴스] 요즘 AI 기업들 정신 차렸나요? 규제와 반독점 조사 줄줄이네요 [기술 Q&A] LLM 파인튜닝 할 때 LoRA vs Full Fine-tuning 뭐가 낫나요?

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 106 추천 7 댓글 1건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 7
댓글 1

댓글목록

profile_image
딥러너
맞아요, 저도 의료 데이터로 파인튜닝할 때 tokenizer 커스터마이징했는데 정말 체감이 달랐어요. 특히 한글은 복합어나 도메인 특수용어가 많아서 기본 tokenizer로는 너무 많은 토큰으로 쪼개지더라고요. vocab 확장 후에 시퀀스 길이가 확 줄어드니까 학습도 효율적이고 모델이 의미 단위를 더 잘 잡는 것 같았어요. 생각보다 오버헤드도 적으니까 도메인 특화 작업할 거면 꼭 추천합니다.