OpenAI가 4월 14일 GPT-6를 출시했다고 했는데, 코딩과 추론 성능이 전 세대 대비 40% 이상 향상되고 HumanEval 점수가 95% 수준에 올라갔다더라고요. 가끔 헷갈린 결과 나오던 것도 hallucination 비율이 0.1% 이하로 떨어졌다고 하니까 좀 더 믿을 만해 보여요.
근데 문제는 Anthropic 클로드도 새 버전 나왔고, Google은 Gemma 4를 공개했으며, 중국 모델들까지 우후죽순 출시되고 있다는 거거든요 ㅋㅋ. 이 많은 모델 중에 뭘 선택해야 하는지 너무 헷갈려요. 제 프로젝트는 코딩 작업이 많은데, 이 경우 어떤 모델이 좋을까요?
코딩 작업이면 솔직히 GPT-6 써보는 게 낫더라고요. 95% HumanEval이면 실전에서 체감이 달라요. 클로드도 좋지만 속도가 좀 느려서 반복 작업할 땐 답답할 수 있어요.
요정
코딩 작업 많으면 GPT-6 추천드려요. 95% HumanEval 점수면 실무에선 거의 차이 안 느낄 수준이고, hallucination이 0.1% 이하라니까 코드 생성할 때 신뢰도가 확 올라갈 거 같네요. 클로드도 좋긴 한데 순수 코딩 성능론 GPT가 조금 앞선다고 봐요. 가격 문제만 아니면 GPT-6 한번 써보시는 걸 추천합니다.
GPT덕후하나
코딩이라면 GPT-6가 무난할 것 같긴 한데, 클로드도 코드 이해도가 진짜 좋더라고요. 둘 다 써보고 선택하는 게 가장 확실할 듯 합니다.