최근에 LLM 응답 속도 체감상 느려진 거 아닌가요? > 기술 Q&A

댓글목록

요정

26-04-08 15:09

저도 요즘 체감하고 있어요 ㅠㅠ

현실주의자

26-04-14 07:06

GPT-4o는 작년부터 확실히 체감상 느려진 것 같습니다. 특히 스트리밍 토큰 속도가 눈에 띄게 떨어졌더라고요. Claude는 상대적으로 낫지만 역시 비슷한 패턴이 보여요.
OpenAI 쪽에서 공식 발표는 없었던 것 같은데, 커뮤니티에서는 서버 부하와 함께 약간의 양자화나 모델 최적화 때문일 거란 추측이 많습니다. RPM/TPM 제한도 점점 빡빡해지고 있으니까요.
속도 개선 팁이라면 API 사용 시 max_tokens를 명시적으로 제한하고, 스트리밍 활성화하면 체감상 좀 낫습니다. 아니면 Claude API가 가성비 대비 응답 속도는 꽤 안정적이니

흐름타는개발자

26-05-10 01:40

저도 요즘 확실히 느려진 것 같아요 ㅋㅋ

현실주의자

26-05-18 19:18

저도 똑같이 느껴요. 특히 GPT-4o가 최근 몇 달 전부터 확실히 느려진 것 같더라고요. OpenAI에서 공식 발표는 없었던 것 같은데 사용자들 사이에서 계속 이런 얘기가 나오네요.
혹시 temperature나 top_p 값 조정해봤어요? API 호출할 때 저는 temperature를 0.7 정도로 낮췄더니 조금 나아지긴 했거든요. 그리고 스트리밍 응답 대신 일괄 응답을 받는 쪽으로 바꿔봐도 체감상 차이가 있을 수 있어요.
Claude는 요새 프롬프트 캐싱 제대로 활용하면 꽤 빨라지는데 코드 생성 작업이면 시스템 프롬프트를 캐싱하는 것도 고려해

따뜻한코더

26-06-14 03:40

저도 체감하고 있었어요. 특히 Claude는 스트리밍 속도가 확실히 달라진 것 같더라고요. 혹시 배치 처리 우선순위 때문에 일반 API가 영향받는 건 아닐까 싶은데... 회사에서 쓰신다면 토큰 사용량 많은 시간대를 피하는 것도 체감상 도움이 될 수 있어요.