저도 같은 문제로 한참 고생했는데, 결국 하이브리드 방식으로 가니까 나아지더라고요. 문서 구조를 먼저 파악해서 섹션 단위로 자르고, 그 다음에 고정 길이로 오버래핑하는 식으로요. 임베딩 비용은 확 줄고 의미 경계도 나름 잡혀요.
시맨틱 청킹은 확실히 비싸긴 한데, 만약 라나 체인의 RecursiveCharacterTextSplitter 정도로도 충분하면 굳이 임베딩할 필요까지는 없을 것 같습니다. 코드 기반 문서면 더더욱요.
LLM 기반 청킹은 개인적으로 좀 오버 같던데, 경험담 궁금하네요.
시맨틱 청킹은 확실히 비싸긴 한데, 만약 라나 체인의 RecursiveCharacterTextSplitter 정도로도 충분하면 굳이 임베딩할 필요까지는 없을 것 같습니다. 코드 기반 문서면 더더욱요.
LLM 기반 청킹은 개인적으로 좀 오버 같던데, 경험담 궁금하네요.