2026.06.20 접속자 38
로그인 회원가입
HOT
[AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] 요즘 AI 업계 움직임이 심심치 않네요... 최신 소식 정리해봤습니다 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 미쳤더라고요 [프롬프트] 실무에서 쓸 만한 프롬프트 공유해주실 분 있나요? [프롬프트] 업무 자동화 프롬프트 만드는데 자꾸 실패하는데 뭐가 문제일까요? [프롬프트] 프롬프트 엔지니어링도 결국 '문맥'이 핵심인 것 같아요 [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] 요즘 AI 업계 움직임이 심심치 않네요... 최신 소식 정리해봤습니다 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 미쳤더라고요 [프롬프트] 실무에서 쓸 만한 프롬프트 공유해주실 분 있나요? [프롬프트] 업무 자동화 프롬프트 만드는데 자꾸 실패하는데 뭐가 문제일까요? [프롬프트] 프롬프트 엔지니어링도 결국 '문맥'이 핵심인 것 같아요

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 103 추천 7 댓글 1건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 7
댓글 1

댓글목록

profile_image
딥러너
맞아요, 저도 의료 데이터로 파인튜닝할 때 tokenizer 커스터마이징했는데 정말 체감이 달랐어요. 특히 한글은 복합어나 도메인 특수용어가 많아서 기본 tokenizer로는 너무 많은 토큰으로 쪼개지더라고요. vocab 확장 후에 시퀀스 길이가 확 줄어드니까 학습도 효율적이고 모델이 의미 단위를 더 잘 잡는 것 같았어요. 생각보다 오버헤드도 적으니까 도메인 특화 작업할 거면 꼭 추천합니다.