2026.06.27 접속자 14
로그인 회원가입
HOT
[AI뉴스] 이제 오픈소스 모델이 GPT랑 거의 차이 없는 수준까지 올라왔네요 [프롬프트] UI/UX 디자인 시안 설명할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 2026년 AI는 이제 '기능'이 아니라 '구조'네요 [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴들 정리해봤어요 [프롬프트] Claude 써서 기획안 뽑는데 자꾸 장황해지네요. 프롬프트 개선 팁 있을까요? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 오픈소스 AI 모델들이 드디어 상용 모델 성능을 따라잡기 시작했다 [AI뉴스] AI·로보틱스 돈이 다 먹고 가는데 다른 스타트업들은 어떻게 되는 거죠? [기술 Q&A] LLM 파인튜닝할 때 LoRA vs full fine-tuning 뭐가 나을까요? [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴 공유합니다 [AI뉴스] 이제 오픈소스 모델이 GPT랑 거의 차이 없는 수준까지 올라왔네요 [프롬프트] UI/UX 디자인 시안 설명할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 2026년 AI는 이제 '기능'이 아니라 '구조'네요 [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴들 정리해봤어요 [프롬프트] Claude 써서 기획안 뽑는데 자꾸 장황해지네요. 프롬프트 개선 팁 있을까요? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 오픈소스 AI 모델들이 드디어 상용 모델 성능을 따라잡기 시작했다 [AI뉴스] AI·로보틱스 돈이 다 먹고 가는데 다른 스타트업들은 어떻게 되는 거죠? [기술 Q&A] LLM 파인튜닝할 때 LoRA vs full fine-tuning 뭐가 나을까요? [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴 공유합니다
파인튜닝

요즘 LLM 평가할 때 뭘 기준으로 보세요?

현실주의자 2026.06.24 15:49 조회 13 추천 3 댓글 0건
회사에서 프로젝트마다 다른 모델 써야 하는데 자꾸 "이 모델이 최고다"라고 주장하는 사람들 때문에 헷갈리네요. 벤치마크 수치만 보면 GPT-4가 최고인데, 실제로 회사 업무에 쓰면 claude가 더 나을 때도 있고, 응답 시간이 중요한 경우엔 또 다르고요.

결국 context window, 비용, 응답 속도, 정확도를 다 고려해야 하는데 이걸 어떻게 체계적으로 평가하시는지 궁금해요. 혹시 자체적으로 테스트 셋 만들어서 비교하는 분 있으신가요? 아니면 그냥 필요할 때마다 써보고 판단하시는 건가요?
추천 3 비추천 0
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!