2026.04.16 접속자 14
로그인 회원가입
HOT
[AI뉴스] 올해 AI는 '에이전트 AI'로 가는구나... 생성형 AI는 이제 과거? [프롬프트] Claude한테 프롬프트 쓸 때 자꾸 장황해지는데 이게 맞나요? [프롬프트] 논문 읽고 요약하게 하는 프롬프트 괜찮은 거 있나요? [AI뉴스] 한국이 EU보다 먼저 AI 규제 받는다고 하는데 정확히 뭐가 바뀐다는 건가요? [프롬프트] 업무 프롬프트 몇 개 공유하는데 실제로 쓰니까 시간이 확 줄더라고요 [AI뉴스] 2026년 AI 모델 시장, 이제 뭐가 뭔지 모르겠는데 정말 각각 다르네요 [기술 Q&A] 최근 LLM 컨텍스트 윈도우 늘려서 써봤는데 실제로 얼마나 도움 되나요? [기술 Q&A] 최근 프롬프트 엔지니어링 트렌드 공유합니다 [프롬프트] AI한테 피드백 주는 프롬프트 어떻게 쓰세요? [기술 Q&A] LLM 파인튜닝 처음 해봤는데 생각보다 복잡하네요 [AI뉴스] 올해 AI는 '에이전트 AI'로 가는구나... 생성형 AI는 이제 과거? [프롬프트] Claude한테 프롬프트 쓸 때 자꾸 장황해지는데 이게 맞나요? [프롬프트] 논문 읽고 요약하게 하는 프롬프트 괜찮은 거 있나요? [AI뉴스] 한국이 EU보다 먼저 AI 규제 받는다고 하는데 정확히 뭐가 바뀐다는 건가요? [프롬프트] 업무 프롬프트 몇 개 공유하는데 실제로 쓰니까 시간이 확 줄더라고요 [AI뉴스] 2026년 AI 모델 시장, 이제 뭐가 뭔지 모르겠는데 정말 각각 다르네요 [기술 Q&A] 최근 LLM 컨텍스트 윈도우 늘려서 써봤는데 실제로 얼마나 도움 되나요? [기술 Q&A] 최근 프롬프트 엔지니어링 트렌드 공유합니다 [프롬프트] AI한테 피드백 주는 프롬프트 어떻게 쓰세요? [기술 Q&A] LLM 파인튜닝 처음 해봤는데 생각보다 복잡하네요

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 4 추천 1 댓글 0건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 1
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!