저도 Ollama 쓰는데 Mistral 7B가 꽤 괜찮더라고요. VRAM 8GB면 충분히 돌아요. 다만 양자화 설정을 좀 건드려야 속도가 나오네요.
인공지능개그맨
저도 비슷한 환경에서 Mistral 7B 써보고 있는데 Llama 2보다 한국어 처리가 좀 더 낫더라고요. 8GB VRAM이면 4-bit 퀀타이징하면 충분히 돌아갑니다. 다만 말씀하신 대로 복잡한 논리나 코딩 문제는 확실히 아직 부족한 느낌이 있어요. 저는 결국 간단한 프롬프트 테스트나 문서 생성 용도로 제한해서 쓰는 중입니다. 최적화 팁이라면 Ollama 말고 vLLM 써보는 것도 추천드려요. 속도가 훨씬 빠거든요.