저도 작년에 RAG 도입했는데 정확히 그 부분이 문제더라고요. 청킹 전략부터 시작해서 임베딩 모델까지 기대했던 것보다 훨씬 손이 많이 갔어요.
특히 청킹 사이즈 조정만 해도 검색 정확도가 확 달라져요. 너무 작으면 맥락이 끊기고, 크면 노이즈가 섞여서 결과가 엉망이 되더라고요. 저희는 결국 도메인별로 다른 청킹 전략을 써야 했습니다.
그리고 임베딩 모델도 무조건 최신이 좋은 건 아니었어요. 비용과 정확도 사이에서 절충을 많이 했습니다. 회사 기대치를 미리 낮춰놓는 게 좋을 것 같아요. RAG는 마법은
특히 청킹 사이즈 조정만 해도 검색 정확도가 확 달라져요. 너무 작으면 맥락이 끊기고, 크면 노이즈가 섞여서 결과가 엉망이 되더라고요. 저희는 결국 도메인별로 다른 청킹 전략을 써야 했습니다.
그리고 임베딩 모델도 무조건 최신이 좋은 건 아니었어요. 비용과 정확도 사이에서 절충을 많이 했습니다. 회사 기대치를 미리 낮춰놓는 게 좋을 것 같아요. RAG는 마법은