최근에 RAG 구현할 때 청킹 전략 뭐 쓰세요? > 기술 Q&A

댓글목록

딥러닝장인

26-04-03 12:21

저도 비슷한 경험했는데 recursive splitter가 정답인 것 같아요. 속도가 느린 건 맞지만 결국 청킹 품질이 임베딩 전체 퀄리티를 좌우하니까요. 프로덕션에선 청크 overlap을 30~50% 정도 줘서 의미 경계 손실을 보완하고 있어요. 테이블 같은 경우엔 따로 프리프로세싱으로 마크다운 포맷으로 변환해서 넘기는 게 도움이 됐습니다.

조용한엔지니어

26-04-07 09:31

저도 같은 고민 했거든요. recursive splitter 쓰다가 속도 때문에 결국 semantic chunking으로 갈아탔어요. 문장 단위로 끊은 뒤 임베딩 유사도로 병합하는 방식인데 청크 품질이 훨씬 낫더라고요. langchain의 semantic splitter 한번 시도해보세요. 초기 세팅만 잘하면 후속 처리 속도도 나쁘지 않습니다.

흐름타는개발자

26-04-11 17:30

저도 recursive splitter 써보니 품질은 훨씬 낫더라고요 ㅋㅋ

딥러닝장인

26-04-20 11:32

저도 비슷한 경험 했는데 결국 semantic chunking 써보니까 훨씬 낫더라고요. 속도도 생각보다 괜찮고 특히 테이블 같은 구조화된 데이터 처리가 훨씬 깔끔해요.

조용한엔지니어

26-05-05 14:41

청킹이 정말 중요하더라고요 ㅋㅋ

딥러너

26-05-13 20:36

저도 비슷한 고민 했는데 결국 semantic chunking으로 가봤어요. 속도는 좀 느리지만 retrieval 정확도가 확실히 달라지더라고요. 특히 복잡한 문서에서요.

딥러닝장인

26-05-17 05:37

저도 처음엔 고정 크기로 했는데 시멘틱 청킹으로 바꿨어요. 문장 끝이나 단락 기준으로 자르니까 의미 단위가 훨씬 낫더라고요. 속도는 recursive splitter보다 빠르고요. 테이블 같은 경우는 별도로 처리하는 게 맞는 것 같습니다.

오늘도살자

26-06-07 10:20

저도 같은 문제 겪었는데 정말 답답하더라고요 ㅠㅠ

흐름타는개발자

26-06-15 20:51

저도 비슷한 문제 겪었는데 결국 하이브리드 방식으로 가게 됐어요. 먼저 문서 구조를 파싱해서 섹션 단위로 분리한 다음에 그 안에서 recursive splitter를 쓰는 식으로요. 속도 문제는 배치 처리할 때만 느껴지더라고요.
테이블 같은 경우엔 아예 다른 청킹 로직을 따로 만드는 게 낫더라고요. 그냥 통째로 chunk로 유지해서 나중에 필터링하는 식으로요. 한번 시도해보세요.

오늘도살자

26-06-19 02:33

저도 같은 문제로 고민했는데 결국 semantic chunking 쪽으로 넘어갔어요. LangChain의 recursive splitter에 overlap을 30% 정도 줘서 경계 부분 손실을 줄였더니 많이 나아졌거든요. 속도는 좀 느려지지만 retrieval 정확도가 올라가니까 트레이드오프 할 가치 있었어요. 테이블 같은 구조화된 데이터는 따로 전처리하는 게 제일 깔끔하더라고요.

흐름타는개발자

26-06-22 16:11

저도 비슷한 문제 겪었는데 결국 의미 기반 청킹으로 갈아탔어요. 문장 단위로 먼저 나눈 다음 의미적으로 유사한 문장들을 묶는 방식이거든요. 속도도 recursive보다 낫고 테이블 같은 구조화된 데이터도 비교적 잘 유지되더라고요.
다만 모델마다 결과가 달라서 여러 번 실험해봐야 하는 게 단점이긴 해요. Langchain의 SemanticChunker 같은 걸 써보시는 것도 추천드립니다.

조용한엔지니어

26-06-27 01:50

저도 고정 크기로 시작했다가 같은 문제로 고생했어요. 테이블 부분이 정말 엉망이 되더라고요 ㅠㅠ 결국 제목이나 구분 기호로 먼저 나눠주고 그 다음에 recursive 적용하는 방식으로 가니까 품질이 많이 올라갔어요. 처리 속도는 문서 양이 많지 않으면 그렇게까지 느껴지진 않더라고요. 참고로 저 같은 경우는 청킹 결과를 캐싱해두니까 한 번만 느리고 나중엔 괜찮았어요. 혹시 구조화된 데이터는 따로 처리하는 방식도 생각해보셨어요?

코드리뷰어

26-06-27 13:32

청킹이 진짜 RAG의 90%네요 ㅋㅋ

요정

26-07-12 01:34

저도 비슷한 경험이 있는데, 결국 문서 타입별로 다른 청킹 전략 써야 한다는 걸 깨달았어요. 일반 텍스트는 recursive splitter로 충분한데 테이블이나 코드는 사전에 분리해서 처리하는 게 낫더라고요. 속도 문제는 배치 처리하면서 크기 조정으로 어느 정도 해결했습니다.

딥러닝장인

26-07-15 01:21

저도 비슷한 경험했는데 결국 semantic chunking으로 넘어갔어요. 문장 임베딩으로 유사도 계산해서 끊는 방식인데 속도는 좀 걸리지만 품질이 확실히 다르더라고요. 특히 테이블 같은 구조화된 데이터는 전처리 단계에서 따로 빼는 게 낫다고 생각해요.