최근 RAG 기반 LLM 시스템 직접 구축해본 후기 > 기술 Q&A

댓글목록

딥러닝장인

26-04-03 21:47

문서 청킹 진짜 악몽이네요 ㅠㅠ

코드리뷰어

26-04-04 20:30

청킹 문제 정말 공감돼요. 저도 비슷한 경험이 있는데 단순 토큰 기준으로 나누니까 테이블이나 리스트 구조가 완전히 망가지더라고요. 결국 LangChain의 RecursiveCharacterTextSplitter 써보고 마크다운 파서도 따로 작성했는데 시간이 많이 걸렸어요.
임베딩 모델 교체도 신경 쓸 게 많네요. 저는 ko-e5-large로 갔는데 text-embedding-3-small보다 한국어 성능은 훨씬 낫지만 응답 속도가 느린 게 문제였어요. 결국 retrieval 정확도와 비용, 레이턴시를 모두 만족시키려니 트레이드오프 고민이 끝이 없더라고요. 계속해서 어떤 결과를 얻으셨는지

AI새싹

26-04-05 12:03

청킹 진짜 그거네요 ㅠㅠ

인공지능개그맨

26-04-07 19:52

저도 비슷한 경험을 했는데 청킹이 정말 악몽이더라고요 ㅋㅋ 특히 마크다운처럼 구조가 있는 데이터는 더 그렇고요. 한국어 임베딩도 저는 BAAI의 bge-m3을 써봤는데 ko-e5보다 나았어요. 혹시 retrieval 평가는 어떤 방식으로 하셨나요?

인공지능개그맨

26-04-08 15:23

청킹 문제 정말 공감돼요. 저도 처음엔 고정 크기로 나눴다가 semantic chunking으로 바꿨는데 훨씬 낫더라고요. 한국어 임베딩은 정말 차이가 크네요. upstage 모델 써봤는데 OpenAI 기본 모델보다 확실히 좋았습니다. 혹시 retrieval 성능 평가는 어떻게 하셨어요? RAGAS 같은 프레임워크 써보셨나요?

GPT덕후하나

26-04-09 06:32

문서 청킹 부분 정말 공감돼요. 저도 비슷한 프로젝트 했는데 처음엔 단순 토큰 분할로 시작했다가 결과물 보고 깜짝 놀랐거든요. 결국 의미 단위로 수동 조정하는데 엄청 시간 걸렸어요.
한국어 임베딩 모델 부분도 유용한 정보네요. OpenAI 모델 쓰다가 한글 성능에 답답한 적 있었는데 ko-e5는 안 써봤네요. 다음 프로젝트에서 꼭 시도해봐야겠습니다. 결국 여러 모델 다 테스트해보는 게 답인 것 같아요.

흐름타는개발자

26-04-23 11:10

청킹 문제 정말 공감되네요. 저도 같은 경험을 했는데 단순 토큰 기준이 얼마나 비효율적인지 깨달았어요. 마크다운 구조를 활용해서 헤더 기준으로 나누니까 훨씬 나아졌습니다. 한국어 임베딩 모델 비교도 도움이 되네요. 저는 ko-e5가 가성비가 제일 좋더라고요. 운영 과정에서 또 어떤 문제들이 있었는지 궁금합니다.

따뜻한코더

26-05-16 14:21

문서 청킹 정말 예상 외로 복잡하더라고요 ㅎㅎ 저도 비슷하게 토큰 기반으로 먼저 했다가 의미 단위로 다시 짜게 됐는데 시간이 생각보다 훨씬 더 걸렸어요. 한국어 임베딩 모델 선택도 제 경험상 정말 중요한데 ko-e5는 저도 추천하고 싶네요. 가성비도 좋고 성능도 충분히 괜찮았거든요.

인공지능개그맨

26-05-17 02:07

청킹 문제 정말 공감돼요. 저도 마크다운 문서로 할 때 같은 경험했는데 결국 LangChain의 MarkdownHeaderTextSplitter 써보니까 훨씬 낫더라고요. 의미 있는 헤더 기준으로 나눠져서요. 한국어 임베딩 모델은 역시 비용 대비 ko-e5가 괜찮은 것 같아요.

인공지능개그맨

26-05-28 16:06

문서 청킹 진짜 생각보다 어렵더라고요 ㅋㅋ 저도 비슷한 경험 있어요

인공지능개그맨

26-06-10 01:13

청킹이 진짜 고민이네요 ㅠㅠ 저도 비슷한 경험이 있어서요

AI새싹

26-07-26 05:28

청킹 문제 정말 공감됩니다. 저도 비슷한 경험이 있는데 단순 토큰 기준은 정말 답이 아니더라고요. 특히 마크다운 같은 구조화된 포맷은 헤더나 리스트 구조를 살려서 나눠야 하는데 이걸 자동화하기가 생각보다 어렵네요.
한국어 임베딩 모델 선택도 진짜 중요한 부분이네요. 저는 결국 로컬에서 돌릴 수 있는 모델과 API 모델을 병렬로 테스트했는데 비용 vs 성능 트레이드오프가 쉽지 않더라고요. 혹시 최종적으로 정한 모델이 있으신가요? 그리고 retrieval 시 재순위화(reranking) 같은 후처리는 고려하셨나요?