요즘 RAG 프로젝트 하고 있는데 임베딩 모델을 뭘로 해야 할지 헷갈려서요. OpenAI의 text-embedding-3-small 쓸까 하다가 한국어 특화 모델도 있다고 해서 고민 중입니다.
일단 제 생각에는 도메인 특성이 제일 중요한 것 같아요. 금융 문서 중심이면 금융 특화 임베딩이, 일반 텍스트면 큰 모델이 낫더라고요. 비용도 고려하면 오픈소스 모델(예: bge-m3, multilingual-e5)도 괜찮은 선택지인 것 같습니다.
테스트해보실 분 계시면 벤치마크 결과도 궁금해요. 혹시 프로덕션에서 바꿔본 경험 있으신 분 있으면 팁 공유 부탁드립니다.
추천 2