저도 비슷한 테스트 해봤는데 프롬프트 효과가 정말 크더라고요. 다만 Claude 3.5 이상에서 더 극적인 차이가 나는 것 같아요. 구 버전에선 프롬프트를 아무리 잘 써도 한계가 있었거든요.
모델 성능과 분리하려면 같은 모델 버전에서만 비교하는 게 핵심인 것 같습니다. 저는 GPT-4o와 Claude 동일 프롬프트로 비교해봤는데 기초 성능이 다르면 프롬프트 효과를 정확히 측정하기 어렵더라고요.
코드 리뷰 같은 경우 context window 효율도 중요한데, Claude가 여기서 유리한 편이라 프롬프트 최적화 효과가 더 두드러지는 것 같습니다.
모델 성능과 분리하려면 같은 모델 버전에서만 비교하는 게 핵심인 것 같습니다. 저는 GPT-4o와 Claude 동일 프롬프트로 비교해봤는데 기초 성능이 다르면 프롬프트 효과를 정확히 측정하기 어렵더라고요.
코드 리뷰 같은 경우 context window 효율도 중요한데, Claude가 여기서 유리한 편이라 프롬프트 최적화 효과가 더 두드러지는 것 같습니다.