요즘 GPT-4o, Claude 3.5, Gemini 2.0 같은 모델들 컨텍스트 윈도우 스펙 비교했는데 단순히 토큰 수만 봐서는 안 될 것 같더라고요. 같은 200k 토큰이라도 실제 성능이 다르게 나온다는 게 신기했어요. 특히 문서 처리할 때 Claude가 끝부분 정보를 더 잘 기억하는 거 보면 구현 방식이 확실히 다른 것 같습니다.
근데 장문 처리 능력이 좋다고 해서 실무에서 꼭 필요한 건 아니더라고요. 토큰 요금도 눈덩이처럼 불어나고. 대부분 프로젝트는 8k~32k 정도면 충분했거든요. 혹시 실제로 큰 윈도우 써야 했던 경험 있으신 분 있으면 어떤 케이스였는지 궁금합니다.
Claude의 needle in haystack 성능이 정말 좋긴 한데, 실제론 요약 프롬프트 몇 줄 추가하는 게 훨씬 비용 효율적이더라고요. 32k로도 충분한 이유가 그거예요. 대부분 실무는 구간별로 나눠서 처리하는 게 낫습니다.
딥러닝장인
저도 비슷한 경험이 있는데, 결국 대부분 프로젝트는 실제로 큰 윈도우가 필요 없더라고요. 다만 RAG 구축할 때 청킹 전략이 잘못되면 토큰낭비가 심해져서, 그냥 작은 윈도우에서 질 좋은 결과를 얻는 게 훨씬 효율적이었어요. Claude의 끝부분 정보 기억 능력은 정말 체감되긴 하는데, 실무에선 프롬프트 엔지니어링으로 충분히 보완되더라고요.