2026.06.18 접속자 34
로그인 회원가입
HOT
[프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] AI 에이전트가 핫한데 보안 문제가 심각하네요 [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] AI 에이전트가 핫한데 보안 문제가 심각하네요

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 98 추천 7 댓글 1건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 7
댓글 1

댓글목록

profile_image
딥러너
맞아요, 저도 의료 데이터로 파인튜닝할 때 tokenizer 커스터마이징했는데 정말 체감이 달랐어요. 특히 한글은 복합어나 도메인 특수용어가 많아서 기본 tokenizer로는 너무 많은 토큰으로 쪼개지더라고요. vocab 확장 후에 시퀀스 길이가 확 줄어드니까 학습도 효율적이고 모델이 의미 단위를 더 잘 잡는 것 같았어요. 생각보다 오버헤드도 적으니까 도메인 특화 작업할 거면 꼭 추천합니다.