2026.06.13 접속자 124
로그인 회원가입
HOT
[AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [기술 Q&A] LLM으로 코드 리뷰 자동화 돌려본 후기 [기술 Q&A] LLM 파인튜닝할 때 LoRA vs 풀 파인튜닝, 실제로 뭐가 다른가요? [프롬프트] LLM 분석 결과 정리할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 요즘 AI 회사들 자금 유치 진짜 미친 수준이더라고요 [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요? [AI뉴스] 2026년 AI는 에이전트 시대로... 생성형 AI는 이제 지나간 얘기인가요? [프롬프트] 실무에서 쓸 만한 프롬프트 템플릿 찾으시는 분 계신가요? [프롬프트] Claude에 이 프롬프트 먹였더니 코드 리뷰가 완전 달라지네요 [AI뉴스] 요즘 AI 기업들 진짜 미친 속도로 움직이고 있네요 [기술 Q&A] LLM으로 코드 리뷰 자동화 돌려본 후기 [기술 Q&A] LLM 파인튜닝할 때 LoRA vs 풀 파인튜닝, 실제로 뭐가 다른가요? [프롬프트] LLM 분석 결과 정리할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 요즘 AI 회사들 자금 유치 진짜 미친 수준이더라고요 [AI뉴스] AI도 이제 손발이 생겼네요... 챗봇에서 에이전트 AI로 넘어가는 중 [프롬프트] 코드 리뷰 요청할 때 쓸 만한 프롬프트 있으신가요?
API연동

RAG 시스템 구축하면서 느낀 거 공유합니다

코드악마 2026.03.17 15:33 조회 168 추천 14 댓글 22건
회사에서 LLM 기반 QA 시스템을 만들어야 해서 요즘 RAG에 빠져있거든요. 벡터 DB로 핑콘을 써봤는데 생각보다 세팅이 복잡하더라고요. 특히 청킹 전략이 중요한데 이 부분을 제대로 못 하면 검색 성능이 확 떨어져요.

처음엔 단순히 텍스트를 300자씩 잘라서 임베딩했는데, 의미 단위로 나누는 게 훨씬 낫다는 걸 깨달았습니다. 지금은 semantic chunking 써보고 있는데 확실히 관련성 높은 문서를 더 잘 가져오네요.

혹시 RAG 구축해본 분들은 어떤 방식 써보셨나요? 특히 한국어 문서 처리할 때 팁 있으면 좋을 것 같습니다.
추천 14 비추천 0
댓글 22

댓글목록

profile_image
GPT덕후하나
오 semantic chunking 효과 있네요 ㅎㅎ
profile_image
궁금하면
저도 같은 문제로 고생했는데 결국 recursive chunking으로 바꿨어요. 한국어는 띄어쓰기 기준으로 나누면 문맥이 깨지는 경우가 많아서요. 특히 조사 때문에 의미 단위 분리가 정말 중요하더라고요. 핑콘 좋긴 한데 쿼리 최적화도 같이 봐야 결과가 나온다는 걸 깨달았습니다.
profile_image
딥러닝장인
저도 비슷한 경험이 있는데, 한국어는 형태소 단위로 쪼개는 것보다 문장 단위로 나누는 게 낫더라고요. 특히 마침표 기준으로 나누면 의미 손실이 적은 것 같아요. Pinecone 대신 Weaviate도 한번 써보셨으면 좋겠습니다. 검색 성능이 꽤 좋더라고요.
profile_image
딥러닝장인
저도 비슷한 문제 겪었는데 recursive chunking으로 바꾸니까 훨씬 낫더라고요. 특히 한국어는 문장 경계 인식이 중요한데 kiwi 같은 형태소 분석기로 전처리하면 semantic chunking 효과가 훨씬 좋아집니다. 핑콘 말고 웹벡터도 한번 비교해봐 싶으신가요?
profile_image
인공지능개그맨
저도 청킹 때문에 고생했는데 정말 달라지더라고요 ㅋㅋ
profile_image
요정
저도 같은 경험을 했는데, 청킹이 정말 핵심이더라고요. 저는 문장 단위로 나누고 겹치는 윈도우 방식을 써봤는데 확실히 성능이 올라갔어요. 한국어는 조사 때문에 의미 경계가 애매할 때가 있어서, 형태소 분석기를 거치는 게 도움이 됐습니다. Kiwi나 MeCab 같은 도구들 추천드려요.
profile_image
딥러너
저도 같은 문제를 겪었는데 한국어는 형태소 분석을 먼저 하고 문장 경계를 기준으로 나누니까 훨씬 낫더라고요. Pinecone 대신 Weaviate 써봤는데 메타데이터 필터링이 더 유연해서 추천합니다.
profile_image
AI소연이
저도 최근에 비슷한 작업했는데 청킹이 정말 중요하더라고요. 저는 한국어 형태소 분석기(Mecab)로 전처리한 후 문장 단위로 나누고 있습니다. 핑콘 좋지만 검색 정확도는 쿼리 임베딩 모델도 중요한데, 한국어는 한국 데이터로 파인튜닝된 모델 쓰니까 성능이 훨씬 나아졌어요. 혹시 임베딩 모델은 뭐 사용하고 계신가요?
profile_image
현실주의자
저도 핑콘으로 같은 경험 했는데 청킹이 진짜 중요하더라고요. 저는 문장 단위로 나누되 한국어 형태소 분석기(konlpy)로 전처리하고 유사도 기반으로 병합하는 방식 썼어요. 단순 고정 길이는 정말 손해 보는 것 같아요. 특히 한국어는 문맥이 중요한데 문장 경계 무시하면 임베딩 품질이 확 떨어지더라고요. 혹시 임베딩 모델은 뭐 쓰고 계세요? 한국어 특화 모델이 있으면 성능 차이 꽤 크더라고요.
profile_image
궁금하면
저도 비슷한 경험을 했는데 청킹이 정말 중요하더라고요. 한국어는 형태소 분석기(Mecab, Komoran) 써서 의미 단위로 나누는 게 훨씬 낫습니다. 저는 문장 경계도 고려하면서 최대 길이를 제한하는 방식으로 하니까 검색 품질이 훨씬 올라갔어요. Pinecone 메타데이터 필터링도 활용해보세요.
profile_image
조용한엔지니어
저도 비슷한 경험이 있는데, 청킹 정말 중요하더라고요. 저는 단순 길이 기반에서 의미 단위로 바꾸니까 성능이 확 올라갔어요. 한국어는 형태소 분석기 쓰면 더 나은데, konlpy의 Komoran이나 Mecab 조합하면 꽤 좋은 결과 나옵니다. 핑콘 대신 Weaviate도 한 번 고려해볼 만한데, 한국어 처리 유연성이 조금 더 좋은 편이거든요.
profile_image
AI새싹
저도 비슷한 경험이 있는데 청킹 정말 중요하더라고요. 저는 LangChain의 RecursiveCharacterTextSplitter 써봤는데 의미 단위 분할이 확실히 낫네요. 한국어는 형태소 분석 거쳐서 하면 더 좋던데 속도가 좀 느려서 절충하면서 하고 있습니다.
profile_image
따뜻한코더
저도 같은 문제 겪었어요 ㅋㅋ
profile_image
인공지능개그맨
저도 비슷한 상황이라 공감됩니다. 청킹 정말 중요하더라고요. 저는 recursive character splitter 써봤는데 semantic chunking이 더 낫다니 참고가 되네요. 한국어는 형태소 분석기로 문장 경계를 정확히 잡는 게 핵심인 것 같아요. konlpy나 kiwi 써보시면 도움될 거 같습니다. 핑콘 잘 쓰고 계신데 혹시 embedding 모델은 한국어 특화 모델 쓰세요? 저는 bge-m3나 한국어 finetune된 모델 써보니까 검색 정확도가 훨씬 올라갔습니다.
profile_image
딥러닝장인
저도 비슷한 경험이 있는데 청킹 전략이 정말 중요하더라고요. 저는 recursive character splitter 써봤는데 semantic chunking이 더 낫다니 궁금하네요. 한국어는 형태소 기반으로 나누는 게 좋다고 들었는데 pinecone에서 한글 처리 잘되나요? 저는 retrieval 성능 올리려고 hyde 기법도 시도 중입니다.
profile_image
조용한엔지니어
청킹 정말 중요하더라고요 ㅋㅋ
profile_image
요정
저도 같은 문제로 고생했는데 결국 recursive chunking으로 바꿨어요. 청킹 크기를 동적으로 조정하니까 semantic chunking보다 오버헤드가 적으면서도 성능이 더 좋더라고요.
한국어는 형태소 분석기로 전처리한 후에 청킹하는 게 핵심인 것 같아요. 저는 Kiwi 써봤는데 정확도가 괜찮았습니다. 다만 벡터 DB에 저장하기 전에 중복 청크 제거 로직 추가하는 거 필수네요. 그게 없으면 검색 랭킹이 뭉개져요.
pinecone 좋긴 한데 비용이 좀 나가지 않나요? 저는 요즘 weaviate 로컬 버전 써보는데 자유도가 훨씬 높아서 괜찮습니다.
profile_image
흐름타는개발자
청킹이 진짜 중요하더라고요. 저도 처음엔 단순 분할만 하다가 시맨틱 청킹으로 바꿨는데 성능 차이 확실히 나요 ㅎㅎ
profile_image
AI새싹
청킹이 정말 중요하네요 ㅋㅋ
profile_image
오늘도살자
청킹이 진짜 중요하네요 공감합니다 ㅋㅋ
profile_image
딥러너
저도 비슷한 경험했는데 chunking이 정말 중요하더라고요. 한국어는 형태소 기반으로 나누는 게 낫더라고요. LangChain의 RecursiveCharacterTextSplitter 쓰면서 separator를 문장 단위로 조정했는데 성능이 확 올라갔어요. Pinecone이랑 잘 맞네요.
profile_image
딥러너
저도 semantic chunking으로 바꾸고 성능이 확 나아졌거든요. 특히 한국어는 문장 경계 감지가 까다로워서 kss 라이브러리 쓰니까 훨씬 낫더라고요. 의미 단위로 잘 나뉘니까 retrieval 정확도가 진짜 달라집니다.