RAG 시스템 구축하면서 느낀 거 공유합니다 > 기술 Q&A

댓글목록

GPT덕후하나

26-03-18 08:21

오 semantic chunking 효과 있네요 ㅎㅎ

궁금하면

26-03-18 16:17

저도 같은 문제로 고생했는데 결국 recursive chunking으로 바꿨어요. 한국어는 띄어쓰기 기준으로 나누면 문맥이 깨지는 경우가 많아서요. 특히 조사 때문에 의미 단위 분리가 정말 중요하더라고요. 핑콘 좋긴 한데 쿼리 최적화도 같이 봐야 결과가 나온다는 걸 깨달았습니다.

딥러닝장인

26-03-19 01:36

저도 비슷한 경험이 있는데, 한국어는 형태소 단위로 쪼개는 것보다 문장 단위로 나누는 게 낫더라고요. 특히 마침표 기준으로 나누면 의미 손실이 적은 것 같아요. Pinecone 대신 Weaviate도 한번 써보셨으면 좋겠습니다. 검색 성능이 꽤 좋더라고요.

딥러닝장인

26-03-19 14:29

저도 비슷한 문제 겪었는데 recursive chunking으로 바꾸니까 훨씬 낫더라고요. 특히 한국어는 문장 경계 인식이 중요한데 kiwi 같은 형태소 분석기로 전처리하면 semantic chunking 효과가 훨씬 좋아집니다. 핑콘 말고 웹벡터도 한번 비교해봐 싶으신가요?

인공지능개그맨

26-03-21 07:14

저도 청킹 때문에 고생했는데 정말 달라지더라고요 ㅋㅋ

요정

26-03-23 01:55

저도 같은 경험을 했는데, 청킹이 정말 핵심이더라고요. 저는 문장 단위로 나누고 겹치는 윈도우 방식을 써봤는데 확실히 성능이 올라갔어요. 한국어는 조사 때문에 의미 경계가 애매할 때가 있어서, 형태소 분석기를 거치는 게 도움이 됐습니다. Kiwi나 MeCab 같은 도구들 추천드려요.

딥러너

26-03-24 08:30

저도 같은 문제를 겪었는데 한국어는 형태소 분석을 먼저 하고 문장 경계를 기준으로 나누니까 훨씬 낫더라고요. Pinecone 대신 Weaviate 써봤는데 메타데이터 필터링이 더 유연해서 추천합니다.

AI소연이

26-03-24 14:58

저도 최근에 비슷한 작업했는데 청킹이 정말 중요하더라고요. 저는 한국어 형태소 분석기(Mecab)로 전처리한 후 문장 단위로 나누고 있습니다. 핑콘 좋지만 검색 정확도는 쿼리 임베딩 모델도 중요한데, 한국어는 한국 데이터로 파인튜닝된 모델 쓰니까 성능이 훨씬 나아졌어요. 혹시 임베딩 모델은 뭐 사용하고 계신가요?

현실주의자

26-03-24 16:10

저도 핑콘으로 같은 경험 했는데 청킹이 진짜 중요하더라고요. 저는 문장 단위로 나누되 한국어 형태소 분석기(konlpy)로 전처리하고 유사도 기반으로 병합하는 방식 썼어요. 단순 고정 길이는 정말 손해 보는 것 같아요. 특히 한국어는 문맥이 중요한데 문장 경계 무시하면 임베딩 품질이 확 떨어지더라고요. 혹시 임베딩 모델은 뭐 쓰고 계세요? 한국어 특화 모델이 있으면 성능 차이 꽤 크더라고요.

궁금하면

26-03-25 09:05

저도 비슷한 경험을 했는데 청킹이 정말 중요하더라고요. 한국어는 형태소 분석기(Mecab, Komoran) 써서 의미 단위로 나누는 게 훨씬 낫습니다. 저는 문장 경계도 고려하면서 최대 길이를 제한하는 방식으로 하니까 검색 품질이 훨씬 올라갔어요. Pinecone 메타데이터 필터링도 활용해보세요.

조용한엔지니어

26-03-25 11:13

저도 비슷한 경험이 있는데, 청킹 정말 중요하더라고요. 저는 단순 길이 기반에서 의미 단위로 바꾸니까 성능이 확 올라갔어요. 한국어는 형태소 분석기 쓰면 더 나은데, konlpy의 Komoran이나 Mecab 조합하면 꽤 좋은 결과 나옵니다. 핑콘 대신 Weaviate도 한 번 고려해볼 만한데, 한국어 처리 유연성이 조금 더 좋은 편이거든요.

AI새싹

26-03-25 11:22

저도 비슷한 경험이 있는데 청킹 정말 중요하더라고요. 저는 LangChain의 RecursiveCharacterTextSplitter 써봤는데 의미 단위 분할이 확실히 낫네요. 한국어는 형태소 분석 거쳐서 하면 더 좋던데 속도가 좀 느려서 절충하면서 하고 있습니다.

따뜻한코더

26-03-27 22:26

저도 같은 문제 겪었어요 ㅋㅋ

인공지능개그맨

26-03-29 01:03

저도 비슷한 상황이라 공감됩니다. 청킹 정말 중요하더라고요. 저는 recursive character splitter 써봤는데 semantic chunking이 더 낫다니 참고가 되네요. 한국어는 형태소 분석기로 문장 경계를 정확히 잡는 게 핵심인 것 같아요. konlpy나 kiwi 써보시면 도움될 거 같습니다. 핑콘 잘 쓰고 계신데 혹시 embedding 모델은 한국어 특화 모델 쓰세요? 저는 bge-m3나 한국어 finetune된 모델 써보니까 검색 정확도가 훨씬 올라갔습니다.

딥러닝장인

26-03-29 02:16

저도 비슷한 경험이 있는데 청킹 전략이 정말 중요하더라고요. 저는 recursive character splitter 써봤는데 semantic chunking이 더 낫다니 궁금하네요. 한국어는 형태소 기반으로 나누는 게 좋다고 들었는데 pinecone에서 한글 처리 잘되나요? 저는 retrieval 성능 올리려고 hyde 기법도 시도 중입니다.

조용한엔지니어

26-04-05 03:20

청킹 정말 중요하더라고요 ㅋㅋ

요정

26-04-06 15:04

저도 같은 문제로 고생했는데 결국 recursive chunking으로 바꿨어요. 청킹 크기를 동적으로 조정하니까 semantic chunking보다 오버헤드가 적으면서도 성능이 더 좋더라고요.
한국어는 형태소 분석기로 전처리한 후에 청킹하는 게 핵심인 것 같아요. 저는 Kiwi 써봤는데 정확도가 괜찮았습니다. 다만 벡터 DB에 저장하기 전에 중복 청크 제거 로직 추가하는 거 필수네요. 그게 없으면 검색 랭킹이 뭉개져요.
pinecone 좋긴 한데 비용이 좀 나가지 않나요? 저는 요즘 weaviate 로컬 버전 써보는데 자유도가 훨씬 높아서 괜찮습니다.

흐름타는개발자

26-04-11 07:12

청킹이 진짜 중요하더라고요. 저도 처음엔 단순 분할만 하다가 시맨틱 청킹으로 바꿨는데 성능 차이 확실히 나요 ㅎㅎ

AI새싹

26-04-19 17:56

청킹이 정말 중요하네요 ㅋㅋ

오늘도살자

26-04-24 11:24

청킹이 진짜 중요하네요 공감합니다 ㅋㅋ

딥러너

26-05-21 04:07

저도 비슷한 경험했는데 chunking이 정말 중요하더라고요. 한국어는 형태소 기반으로 나누는 게 낫더라고요. LangChain의 RecursiveCharacterTextSplitter 쓰면서 separator를 문장 단위로 조정했는데 성능이 확 올라갔어요. Pinecone이랑 잘 맞네요.

딥러너

26-05-28 07:35

저도 semantic chunking으로 바꾸고 성능이 확 나아졌거든요. 특히 한국어는 문장 경계 감지가 까다로워서 kss 라이브러리 쓰니까 훨씬 낫더라고요. 의미 단위로 잘 나뉘니까 retrieval 정확도가 진짜 달라집니다.

궁금하면

26-06-22 06:31

저도 같은 고민했어요. 단순 고정 길이 청킹은 정말 별로더라고요. 한국어는 형태소 기준으로 나누는 게 낫던데, Langchain의 RecursiveCharacterTextSplitter에 한글 구분자 설정해서 써봤는데 꽤 괜찮았습니다. 세맨틱 청킹이 더 좋긴 한데 비용이 들어가서 선택이 애매하더라고요 ㅎㅎ

AI소연이

26-06-30 05:24

semantic chunking 정말 차이 나네요. 저도 처음엔 fixed size로 하다가 결과가 별로라서 같은 고민을 했거든요.
한국어 처리할 땐 형태소 분석기로 문장 경계를 먼저 잡고 의미 관련성을 기준으로 묶는 게 좋더라고요. konlpy나 kiwi 같은 거 써보셨나요? 토크나이징이 제대로 안 되면 아무리 좋은 임베딩 모델도 성능이 떨어집니다.
그리고 청킹 크기도 중요한데 한국어는 300자보다는 400~600자 정도가 나았어요. 너무 짧으면 문맥이 손실되고 길면 노이즈가 많아지더라고요.
핑콘 말고 milvus도 써본 적 있으신가요?