2026.04.22 접속자 5
로그인 회원가입
HOT
[AI뉴스] 2025년 전체 벤처 투자금의 48%가 AI 분야로 편중되고 있다는 걸 알았나요? [AI뉴스] 2026년 벌써 AI 투자 열풍인데 우리나라 스타트업도 잘 되고 있네요 [프롬프트] GPT한테 "역할 정하고 시작하기" 프롬프트 효과 진짜 좋네요 [프롬프트] Claude 프롬프트로 코드리뷰 받아보신 분 계신가요? [프롬프트] Claude에 이 프롬프트 박으니까 코드리뷰가 확 달라졌어요 [프롬프트] Claude 프롬프트로 코드 리뷰 자동화해보니 정말 쓸만하네요 [프롬프트] 코드 리뷰 요청할 때 쓰는 프롬프트 팁 공유합니다 [기술 Q&A] LLM 토큰 계산 관련해서 좀 헷갈리는데 이거 맞나요? [AI뉴스] 4월 AI 뉴스 정리... 한국도 기술력 세계 3위 수준이라는데 들으셨어요? [AI뉴스] AI 기본법 1월 22일 시행된다는데 회사에서 아직도 아무것도 안 하네요 [AI뉴스] 2025년 전체 벤처 투자금의 48%가 AI 분야로 편중되고 있다는 걸 알았나요? [AI뉴스] 2026년 벌써 AI 투자 열풍인데 우리나라 스타트업도 잘 되고 있네요 [프롬프트] GPT한테 "역할 정하고 시작하기" 프롬프트 효과 진짜 좋네요 [프롬프트] Claude 프롬프트로 코드리뷰 받아보신 분 계신가요? [프롬프트] Claude에 이 프롬프트 박으니까 코드리뷰가 확 달라졌어요 [프롬프트] Claude 프롬프트로 코드 리뷰 자동화해보니 정말 쓸만하네요 [프롬프트] 코드 리뷰 요청할 때 쓰는 프롬프트 팁 공유합니다 [기술 Q&A] LLM 토큰 계산 관련해서 좀 헷갈리는데 이거 맞나요? [AI뉴스] 4월 AI 뉴스 정리... 한국도 기술력 세계 3위 수준이라는데 들으셨어요? [AI뉴스] AI 기본법 1월 22일 시행된다는데 회사에서 아직도 아무것도 안 하네요

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 10 추천 2 댓글 0건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 2
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!