2026.04.28 접속자 10
로그인 회원가입
HOT
[프롬프트] LLM한테 코드 리뷰 받을 때 쓰는 프롬프트 공유 [AI뉴스] 오픈AI가 GPT-6 내일 출시한다는데 성능이 진짜 대박이라네요 [AI뉴스] 이제 AI는 시켜야 할 걸 하는 에이전트 시대네요 [프롬프트] 챗봇한테 물어보는 방식 좀 바꿨더니 답변이 달라지더라고요 [프롬프트] GPT한테 물어볼 때 이렇게 하니까 답이 훨씬 낫더라요 [프롬프트] 문서 작성할 때 쓰는 프롬프트 공유합니다 [프롬프트] 영어 문서 번역할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 로컬 배포하다가 느낀 거 공유합니다 [자유게시판] 편의점 야식으로 자취생 살리는 메뉴 뭐가 있나요 [AI뉴스] 요즘 오픈소스 AI 모델들이 미쳤네요... 구글 젬마4, 알리바바 큐원 근황 [프롬프트] LLM한테 코드 리뷰 받을 때 쓰는 프롬프트 공유 [AI뉴스] 오픈AI가 GPT-6 내일 출시한다는데 성능이 진짜 대박이라네요 [AI뉴스] 이제 AI는 시켜야 할 걸 하는 에이전트 시대네요 [프롬프트] 챗봇한테 물어보는 방식 좀 바꿨더니 답변이 달라지더라고요 [프롬프트] GPT한테 물어볼 때 이렇게 하니까 답이 훨씬 낫더라요 [프롬프트] 문서 작성할 때 쓰는 프롬프트 공유합니다 [프롬프트] 영어 문서 번역할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 로컬 배포하다가 느낀 거 공유합니다 [자유게시판] 편의점 야식으로 자취생 살리는 메뉴 뭐가 있나요 [AI뉴스] 요즘 오픈소스 AI 모델들이 미쳤네요... 구글 젬마4, 알리바바 큐원 근황
오류해결

LLM 파인튜닝할 때 토큰 길이 제한 때문에 고민이라는데...

요정 2026.04.24 14:17 조회 18 추천 6 댓글 1건
요즘 우리 팀에서 특정 도메인용 LLM 파인튜닝을 진행하고 있는데 문제가 생겼어요. 데이터셋이 꽤 길어서 토큰 길이 제한에 계속 걸리더라고요. GPT-4나 Claude 같은 큰 모델은 컨텍스트 윈도우가 크지만, 로컬에서 돌릴 수 있는 경량 모델들은 보통 4k 정도라서...

일단 텍스트를 청킹해서 쪼개는 방법도 시도했는데 그러면 문맥이 끊겨서 학습 품질이 떨어지는 느낌이에요. 단순히 글자 수로 자르기만 해서 그런 걸까요? Sliding window 방식으로 오버래핑을 주면 좀 나을까 싶긴 한데...

혹시 이 문제를 어떻게 해결하는 게 일반적인지 궁금합니다. 긴 문서를 파인튜닝할 때 실제로 어떤 전략을 쓰시나요? 토큰 길이를 늘릴 수 있게 모델을 재훈련하는 건 너무 비용이 크기도 하고...

그리고 혹시 Llama 2 같은 4k 제한 있는 모델도 충분히 실용적인지도 궁금하네요. 아니면 차라리 처음부터 더 긴 컨텍스트를 지원하는 모델로 시작하는 게 낫나 싶고요. 의견 부탁드려요.
추천 6 비추천 0
댓글 1

댓글목록

profile_image
궁금하면
저도 비슷한 문제로 고생했는데, 결국 sliding window 오버래핑이 가장 실용적이더라고요. 단순 청킹보다는 확실히 문맥 손실이 줄어들어요. 다만 겹치는 부분의 중복 학습이 생기니까 배치 사이즈나 에포크를 조정해야 해요.
저희는 결국 Llama 2 4k로도 충분했는데, 실제로는 대부분의 도메인 데이터가 짧은 편이거든요. 긴 문서는 뭔가 요약 전처리를 먼저 하고 파인튜닝하는 방식으로 가니까 오히려 학습이 더 효율적이었어요. 처음부터 큰 모델로 갈 필요는 없는 것 같습니다.