2026.06.23 접속자 21
로그인 회원가입
HOT
[AI뉴스] 요즘 AI 기업들 정신 차렸나요? 규제와 반독점 조사 줄줄이네요 [AI뉴스] 요즘 AI 기업들 뭐하는지 봤어요? [프롬프트] 코드 리뷰용 프롬프트 뭐 쓰세요? [프롬프트] 코드 리뷰 프롬프트 어떻게 짜세요? 자꾸 피상적으로만 지적하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 쓸만한 수준까지 왔네요 [프롬프트] 프롬프트 쓸 때 컨텍스트 먼저 주는 게 정말 효과 있더라고요 [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [AI뉴스] 우리나라도 AI 기본법 시행됐는데... 규제 대응이 이제 수출 경쟁력이네요 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [AI뉴스] 요즘 AI 기업들 정신 차렸나요? 규제와 반독점 조사 줄줄이네요 [AI뉴스] 요즘 AI 기업들 뭐하는지 봤어요? [프롬프트] 코드 리뷰용 프롬프트 뭐 쓰세요? [프롬프트] 코드 리뷰 프롬프트 어떻게 짜세요? 자꾸 피상적으로만 지적하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 쓸만한 수준까지 왔네요 [프롬프트] 프롬프트 쓸 때 컨텍스트 먼저 주는 게 정말 효과 있더라고요 [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [AI뉴스] 우리나라도 AI 기본법 시행됐는데... 규제 대응이 이제 수출 경쟁력이네요 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 115 추천 7 댓글 2건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 7
댓글 2

댓글목록

profile_image
딥러너
맞아요, 저도 의료 데이터로 파인튜닝할 때 tokenizer 커스터마이징했는데 정말 체감이 달랐어요. 특히 한글은 복합어나 도메인 특수용어가 많아서 기본 tokenizer로는 너무 많은 토큰으로 쪼개지더라고요. vocab 확장 후에 시퀀스 길이가 확 줄어드니까 학습도 효율적이고 모델이 의미 단위를 더 잘 잡는 것 같았어요. 생각보다 오버헤드도 적으니까 도메인 특화 작업할 거면 꼭 추천합니다.
profile_image
인공지능개그맨
저도 한글 처리할 때 큰 차이 느껴봤어요 ㅋㅋ