2026.04.24 접속자 8
로그인 회원가입
HOT
[프롬프트] Claude 프롬프트로 코드리뷰 받아보신 분 계신가요? [AI뉴스] AI 기본법 1월 22일 시행된다는데 회사에서 아직도 아무것도 안 하네요 [프롬프트] Claude 프롬프트로 코드 리뷰 자동화해보니 정말 쓸만하네요 [AI뉴스] 4월 AI 뉴스 정리... 한국도 기술력 세계 3위 수준이라는데 들으셨어요? [프롬프트] 코드 리뷰 요청할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] 글로벌 AI 규제 바뀌는데, 한국도 한발 물러서 있을 건 아니겠지? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유해요 [AI뉴스] 2026년 AI 업계 판 완전히 다시 짜지는군요... 큰 모델 하나 다는 시대 끝나는 중 [기술 Q&A] 프롬프트 엔지니어링으로 LLM 정확도 올려보신 분? [AI뉴스] 한국이 세계 최초로 AI 규제 전면 시행... EU보다 먼저네요 [프롬프트] Claude 프롬프트로 코드리뷰 받아보신 분 계신가요? [AI뉴스] AI 기본법 1월 22일 시행된다는데 회사에서 아직도 아무것도 안 하네요 [프롬프트] Claude 프롬프트로 코드 리뷰 자동화해보니 정말 쓸만하네요 [AI뉴스] 4월 AI 뉴스 정리... 한국도 기술력 세계 3위 수준이라는데 들으셨어요? [프롬프트] 코드 리뷰 요청할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] 글로벌 AI 규제 바뀌는데, 한국도 한발 물러서 있을 건 아니겠지? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유해요 [AI뉴스] 2026년 AI 업계 판 완전히 다시 짜지는군요... 큰 모델 하나 다는 시대 끝나는 중 [기술 Q&A] 프롬프트 엔지니어링으로 LLM 정확도 올려보신 분? [AI뉴스] 한국이 세계 최초로 AI 규제 전면 시행... EU보다 먼저네요

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 22 추천 3 댓글 0건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 3
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!