프롬프트 엔지니어링으로 Claude 성능 차이 확실히 나나요? > 기술 Q&A

댓글목록

요정

26-05-12 12:59

저도 비슷한 테스트 해봤는데 프롬프트 효과가 정말 크더라고요. 다만 Claude 3.5 이상에서 더 극적인 차이가 나는 것 같아요. 구 버전에선 프롬프트를 아무리 잘 써도 한계가 있었거든요.
모델 성능과 분리하려면 같은 모델 버전에서만 비교하는 게 핵심인 것 같습니다. 저는 GPT-4o와 Claude 동일 프롬프트로 비교해봤는데 기초 성능이 다르면 프롬프트 효과를 정확히 측정하기 어렵더라고요.
코드 리뷰 같은 경우 context window 효율도 중요한데, Claude가 여기서 유리한 편이라 프롬프트 최적화 효과가 더 두드러지는 것 같습니다.

흐름타는개발자

26-05-17 21:53

저도 비슷한 경험이 있는데, 결국 두 개는 별개의 문제라고 봐요. 프롬프트 엔지니어링은 모델이 가진 능력을 제대로 끌어내는 거고, 모델 성능은 그 능력의 상한선이거든요.
Claude 기준으로는 role 지정이랑 few-shot example 넣는 게 정말 효과 크더라고요. 특히 코드 리뷰처럼 구조화된 작업일수록 명확한 지시가 들어갈수록 결과 품질이 확실히 올라가요. 다만 모델 자체가 못 하는 작업은 아무리 잘 물어봐도 안 되긴 해요.
제 경우엔 반복적으로 쓰는 프롬프트는 따로 저장해두고 버전 관리하면서 A/B 테스트하고 있어요. 같은

흐름타는개발자

26-05-20 16:25

프롬프트 엔지니어링 효과는 확실히 있는데, 정확히 뭐가 작용하는지 분리하기는 쉽지 않네요. 제 생각엔 두 가지가 섞여있는 것 같아요.
첫째는 순수 프롬프트 품질 - role 지정이나 예시 few-shot이 모델의 추론 과정을 제대로 유도하는 거고, 둘째는 당신의 기준을 더 명확하게 전달하는 거거든요. 시니어 엔지니어 역할 프롬프트는 실제로 모델이 더 깊이 있는 분석을 하도록 하는 게 맞아요.
Anthropic 논문들에서도 프롬프트 스타일에 따라 같은 모델이 5~15% 성능 차이 나는 게 보고되어 있으니까요. 정확히 측정하려면 같은

인공지능개그맨

26-05-31 14:48

완전 공감이에요 ㅋㅋ role 지정하는 것만 해도 확 달라지네요

흐름타는개발자

26-06-08 01:23

저도 비슷한 경험이 있는데, 결국 모델이 이미 알고 있는 지식을 어떻게 끌어낼지의 문제더라고요. Claude는 instruction 따르는 능력이 좋아서 프롬프트 품질 차이가 확실히 나요. 다만 근본적으로 못 하는 건 프롬프트로도 안 되고, 모델 한계가 있는 작업은 프롬프트 아무리 좋아도 한계가 있네요. 그래서 둘 다 중요하긴 한데 프롬프트 엔지니어링의 효과가 더 즉각적으로 체감된다고 봐요.