저도 비슷한 문제로 고생했는데 결론은 reranking 모델 도입이 가장 실용적이더라고요. Cohere나 오픈소스 모델들이 꽤 가볍고 비용도 괜찮은 수준이거든요.
청크 크기 줄이기는 정확도가 떨어질 수 있어서 별로고, 프롬프트 최적화만으로는 한계가 있었어요. 상위 10개 청크를 뽑은 다음 reranking으로 3~4개 추렸더니 관련성이 훨씬 나아졌습니다. 토큰도 덜 쓰고요.
요청 건수가 많다면 비용을 다시 계산해봐야겠지만, 정확도와 비용 밸런스로는 이 방식이 제일 낫다고 봐요.
청크 크기 줄이기는 정확도가 떨어질 수 있어서 별로고, 프롬프트 최적화만으로는 한계가 있었어요. 상위 10개 청크를 뽑은 다음 reranking으로 3~4개 추렸더니 관련성이 훨씬 나아졌습니다. 토큰도 덜 쓰고요.
요청 건수가 많다면 비용을 다시 계산해봐야겠지만, 정확도와 비용 밸런스로는 이 방식이 제일 낫다고 봐요.