2026.04.28 접속자 10명

로그인 | 회원가입 | AI 서비스

HOT

[프롬프트] LLM한테 코드 리뷰 받을 때 쓰는 프롬프트 공유 [AI뉴스] 오픈AI가 GPT-6 내일 출시한다는데 성능이 진짜 대박이라네요 [AI뉴스] 이제 AI는 시켜야 할 걸 하는 에이전트 시대네요 [프롬프트] 챗봇한테 물어보는 방식 좀 바꿨더니 답변이 달라지더라고요 [프롬프트] GPT한테 물어볼 때 이렇게 하니까 답이 훨씬 낫더라요 [프롬프트] 문서 작성할 때 쓰는 프롬프트 공유합니다 [프롬프트] 영어 문서 번역할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 로컬 배포하다가 느낀 거 공유합니다 [자유게시판] 편의점 야식으로 자취생 살리는 메뉴 뭐가 있나요 [AI뉴스] 요즘 오픈소스 AI 모델들이 미쳤네요... 구글 젬마4, 알리바바 큐원 근황 [프롬프트] LLM한테 코드 리뷰 받을 때 쓰는 프롬프트 공유 [AI뉴스] 오픈AI가 GPT-6 내일 출시한다는데 성능이 진짜 대박이라네요 [AI뉴스] 이제 AI는 시켜야 할 걸 하는 에이전트 시대네요 [프롬프트] 챗봇한테 물어보는 방식 좀 바꿨더니 답변이 달라지더라고요 [프롬프트] GPT한테 물어볼 때 이렇게 하니까 답이 훨씬 낫더라요 [프롬프트] 문서 작성할 때 쓰는 프롬프트 공유합니다 [프롬프트] 영어 문서 번역할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 로컬 배포하다가 느낀 거 공유합니다 [자유게시판] 편의점 야식으로 자취생 살리는 메뉴 뭐가 있나요 [AI뉴스] 요즘 오픈소스 AI 모델들이 미쳤네요... 구글 젬마4, 알리바바 큐원 근황

목록

오류해결

LLM 파인튜닝할 때 토큰 길이 제한 때문에 고민이라는데...

요정 2026.04.24 14:17 조회 18 추천 6 댓글 1건

요즘 우리 팀에서 특정 도메인용 LLM 파인튜닝을 진행하고 있는데 문제가 생겼어요. 데이터셋이 꽤 길어서 토큰 길이 제한에 계속 걸리더라고요. GPT-4나 Claude 같은 큰 모델은 컨텍스트 윈도우가 크지만, 로컬에서 돌릴 수 있는 경량 모델들은 보통 4k 정도라서...

일단 텍스트를 청킹해서 쪼개는 방법도 시도했는데 그러면 문맥이 끊겨서 학습 품질이 떨어지는 느낌이에요. 단순히 글자 수로 자르기만 해서 그런 걸까요? Sliding window 방식으로 오버래핑을 주면 좀 나을까 싶긴 한데...

혹시 이 문제를 어떻게 해결하는 게 일반적인지 궁금합니다. 긴 문서를 파인튜닝할 때 실제로 어떤 전략을 쓰시나요? 토큰 길이를 늘릴 수 있게 모델을 재훈련하는 건 너무 비용이 크기도 하고...

그리고 혹시 Llama 2 같은 4k 제한 있는 모델도 충분히 실용적인지도 궁금하네요. 아니면 차라리 처음부터 더 긴 컨텍스트를 지원하는 모델로 시작하는 게 낫나 싶고요. 의견 부탁드려요.

추천 6 비추천 0

이전글LLM 토큰화 방식 차이 때문에 같은 프롬프트인데 결과가 왜 다를까요?26.04.24
다음글LLM 로컬 배포하다가 느낀 거 공유합니다26.04.23

댓글 1

댓글목록

궁금하면

26-04-26 12:17

저도 비슷한 문제로 고생했는데, 결국 sliding window 오버래핑이 가장 실용적이더라고요. 단순 청킹보다는 확실히 문맥 손실이 줄어들어요. 다만 겹치는 부분의 중복 학습이 생기니까 배치 사이즈나 에포크를 조정해야 해요.
저희는 결국 Llama 2 4k로도 충분했는데, 실제로는 대부분의 도메인 데이터가 짧은 편이거든요. 긴 문서는 뭔가 요약 전처리를 먼저 하고 파인튜닝하는 방식으로 가니까 오히려 학습이 더 효율적이었어요. 처음부터 큰 모델로 갈 필요는 없는 것 같습니다.