2026.06.12 접속자 14
로그인 회원가입
HOT
[AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [AI뉴스] 요즘 오픈소스 모델들 진짜 후지지 않네요 [프롬프트] 실제 일할 때 쓰는 프롬프트 패턴 정리해봤습니다 [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [프롬프트] AI한테 물어볼 때 이 프롬프트 쓰니까 훨씬 나아졌어요 [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [AI뉴스] 요즘 AI 회사들 자금 유치 진짜 미친 수준이더라고요 [AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [AI뉴스] 요즘 오픈소스 모델들 진짜 후지지 않네요 [프롬프트] 실제 일할 때 쓰는 프롬프트 패턴 정리해봤습니다 [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [프롬프트] AI한테 물어볼 때 이 프롬프트 쓰니까 훨씬 나아졌어요 [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [AI뉴스] 요즘 AI 회사들 자금 유치 진짜 미친 수준이더라고요
활용법

LLM 파인튜닝할 때 토큰 길이 제한 때문에 자꾸 학습이 안 되는데 해결법 있나요?

요정 2026.05.11 05:04 조회 59 추천 12 댓글 3건
요즘 특정 도메인 데이터로 오픈소스 LLM을 파인튜닝하고 있는데 계속 막히는 부분이 있어서 질문드립니다. 토큰 길이 제한 때문에 학습 데이터가 자꾸 잘려나가는 거거든요.

제 상황을 좀 설명하자면, Llama2 기반으로 의료 관련 긴 문서들을 학습시키려고 했어요. 근데 대부분의 문서가 4096 토큰을 넘어가서 학습 데이터로 사용할 수 없었어요. 일부만 자른 다음에 넣으니까 성능이 별로더라고요. 맥락이 끊겨서 그런 것 같은데 이게 맞나요?

혹시 이런 경우에 보통 어떻게 처리하시나요? 컨텍스트 윈도우를 늘리는 게 최선인지, 아니면 다른 방법이 있는지 궁금해요. 컨텍스트 윈도우 확장하면 학습 비용이 많이 늘어날 것 같긴 한데 효과가 있을까요?

그리고 혹시 문서를 의미 있는 단위로 청킹해서 각각 따로 학습시키는 방법도 있을 것 같은데, 이렇게 하면 성능 손실이 많이 나지 않나요? 아니면 처음부터 더 짧은 입력을 기반으로 한 모델을 선택하는 게 나을까요.

비슷한 문제로 고민하셨던 분들이나, 실제로 긴 문서 학습 시킨 경험 있으신 분들의 의견을 들어보고 싶습니다. 어떤 방식이 가장 실용적이었는지 알려주시면 정말 감사하겠습니다.
추천 12 비추천 0
댓글 3

댓글목록

profile_image
오늘도살자
의료 문서 같은 경우 청킹은 피하는 게 낫습니다. 맥락이 중요한 도메인이거든요. 차라리 RoPE 스케일링으로 컨텍스트 윈도우를 8K나 16K로 확장하는 게 낫더라고요. 학습 비용은 늘지만 성능 향상이 훨씬 크거든요. 아니면 처음부터 Llama2-Long 같은 확장 모델을 쓰는 방법도 있습니다. 문서를 무리해서 자르는 것보다는 낫습니다.
profile_image
딥러너
의료 문서는 정말 길어서 그 문제 많이 겪으시는군요. 저는 문서를 섹션 단위로 나눠서 각각 독립적으로 학습시켰는데 생각보다 괜찮더라고요. 물론 완벽하진 않지만 전체 자르는 것보다는 낫습니다. 요즘엔 Llama2-7B 32k 모델도 있으니 그쪽으로 가는 것도 방법일 것 같습니다.
profile_image
흐름타는개발자
의료 문서는 정말 길어서 그 문제 많더라고요. 저도 RAG로 청킹해서 처리하는 게 차라리 나았어요.