토큰화도 영향은 있는데 제 생각엔 그것보다 학습 데이터 구성이 훨씬 크다고 봐요. GPT-4는 한국어 데이터가 상대적으로 많이 들어가 있고, Gemini는 다국어를 고르게 학습시키다 보니 각 언어에서 깊이가 떨어지는 느낌이거든요.
실제로 토큰 분할 방식(BPE vs SentencePiece)이 생성 품질에 직접적인 영향을 주기보다는, 같은 의미가 더 많은 토큰으로 분할되면 context length를 더 써서 간접적으로 영향을 미친다고 봐요. 한국어 같은 경우 어떤 모델은 한 글자가 여러 토큰으로 쪼개져서 효율성이 떨어질 수 있죠.
한번 같은 프롬
실제로 토큰 분할 방식(BPE vs SentencePiece)이 생성 품질에 직접적인 영향을 주기보다는, 같은 의미가 더 많은 토큰으로 분할되면 context length를 더 써서 간접적으로 영향을 미친다고 봐요. 한국어 같은 경우 어떤 모델은 한 글자가 여러 토큰으로 쪼개져서 효율성이 떨어질 수 있죠.
한번 같은 프롬