저도 비슷한 문제로 고생했는데, 결국 리랭킹 모델 도입이 가장 효과 있었어요. 상위 10개 검색 후 작은 모델로 재정렬하니까 3~5개만 써도 정확도가 올라갔습니다. 청킹 크기 줄이는 것도 도움 되지만 검색 결과가 너무 잘게 나뉘는 게 문제긴 하더라고요.
Claude는 토큰 효율 면에서 확실히 낫긴 한데, 저는 혼용하는 중이에요. 단순 검색은 Claude, 복잡한 추론은 GPT-4 이런 식으로요. 토큰 압축은 실제로 써본 건 없는데 정보 손실이 많을 것 같아서 피했습니다.
Claude는 토큰 효율 면에서 확실히 낫긴 한데, 저는 혼용하는 중이에요. 단순 검색은 Claude, 복잡한 추론은 GPT-4 이런 식으로요. 토큰 압축은 실제로 써본 건 없는데 정보 손실이 많을 것 같아서 피했습니다.