GPT-4o는 작년부터 확실히 체감상 느려진 것 같습니다. 특히 스트리밍 토큰 속도가 눈에 띄게 떨어졌더라고요. Claude는 상대적으로 낫지만 역시 비슷한 패턴이 보여요.
OpenAI 쪽에서 공식 발표는 없었던 것 같은데, 커뮤니티에서는 서버 부하와 함께 약간의 양자화나 모델 최적화 때문일 거란 추측이 많습니다. RPM/TPM 제한도 점점 빡빡해지고 있으니까요.
속도 개선 팁이라면 API 사용 시 max_tokens를 명시적으로 제한하고, 스트리밍 활성화하면 체감상 좀 낫습니다. 아니면 Claude API가 가성비 대비 응답 속도는 꽤 안정적이니