2026.04.26 접속자 5
로그인 회원가입
HOT
[프롬프트] 코드 리뷰 요청할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] 2026년 AI 업계 판 완전히 다시 짜지는군요... 큰 모델 하나 다는 시대 끝나는 중 [기술 Q&A] RAG 구현할 때 임베딩 모델 선택 기준이 뭐예요? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유해요 [프롬프트] LLM한테 코드 리뷰 받을 때 쓰는 프롬프트 공유 [AI뉴스] 한국이 세계 최초로 AI 규제 전면 시행... EU보다 먼저네요 [AI뉴스] 오픈AI가 GPT-6 내일 출시한다는데 성능이 진짜 대박이라네요 [프롬프트] 챗봇한테 물어보는 방식 좀 바꿨더니 답변이 달라지더라고요 [AI뉴스] 이제 AI는 시켜야 할 걸 하는 에이전트 시대네요 [기술 Q&A] LLM 파인튜닝할 때 LoRA vs 풀 파인튜닝, 실제로 뭐가 다를까요? [프롬프트] 코드 리뷰 요청할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] 2026년 AI 업계 판 완전히 다시 짜지는군요... 큰 모델 하나 다는 시대 끝나는 중 [기술 Q&A] RAG 구현할 때 임베딩 모델 선택 기준이 뭐예요? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유해요 [프롬프트] LLM한테 코드 리뷰 받을 때 쓰는 프롬프트 공유 [AI뉴스] 한국이 세계 최초로 AI 규제 전면 시행... EU보다 먼저네요 [AI뉴스] 오픈AI가 GPT-6 내일 출시한다는데 성능이 진짜 대박이라네요 [프롬프트] 챗봇한테 물어보는 방식 좀 바꿨더니 답변이 달라지더라고요 [AI뉴스] 이제 AI는 시켜야 할 걸 하는 에이전트 시대네요 [기술 Q&A] LLM 파인튜닝할 때 LoRA vs 풀 파인튜닝, 실제로 뭐가 다를까요?

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 25 추천 5 댓글 0건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 5
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!