GPT-5, 출시 초 성능 논란과 오픈AI의 대응 : 무엇이 문제였을까?

비전공자의 테크노트 2025. 8. 11. 10:49

GPT-5, 출시 초 성능 논란과 오픈AI의 대응 : 무엇이 문제였을까?

오픈AI의 최신 인공지능 모델 GPT-5가 세상에 첫선을 보인 후, 뜻밖에도 뜨거운 논란의 중심에 섰습니다. 이전 모델인 GPT-4o보다 성능이 오히려 떨어진다는 사용자들의 거센 비판이 쏟아지면서 말이죠. 이에 샘 올트먼 오픈AI CEO가 직접 나서 상황을 설명하고 개선을 약속하는 일이 벌어졌습니다. 과연 GPT-5를 둘러싼 이번 논란의 핵심은 무엇이며, 오픈AI는 어떤 해결책을 내놓았을까요? IT 비전문가도 쉽게 이해할 수 있도록 자세히 살펴보겠습니다.

GPT-5, 왜 '기대 이하'라는 평가를 받았나?

새롭게 출시된 GPT-5에 대한 사용자들의 불만은 크게 몇 가지로 나눌 수 있습니다.

성능 저하 체감 : 가장 큰 비판은 바로 "성능이 이전만 못하다"는 것이었습니다. 많은 사용자가 GPT-5가 GPT-4o보다 전체적인 성능이 떨어지는 것 같다고 지적하며, 심지어는 GPT-4o를 다시 사용할 수 있게 해달라는 요청까지 빗발쳤습니다.
'무미건조하고 로봇 같은' 답변 : GPT-5의 답변이 너무 짧고 인간미가 없다는 평가가 많았습니다. 특히 길고 심층적인 대화에서 감정이나 뉘앙스를 제대로 파악하지 못해 몰입감이 떨어진다는 의견도 있었습니다. 이와 대조적으로 GPT-4o는 "친구 같았다"는 반응을 얻었죠.
글쓰기 능력 논란 : 글쓰기 작업에서도 GPT-5의 성능이 떨어진다는 불만이 제기되었습니다.
사용량 제한에 대한 불만 : GPT-5 출시 후 챗GPT 이용 용량이 빠르게 소진되면서 유료 사용자들의 혜택이 줄어들었다는 목소리도 나왔습니다.
벤치마크 데이터 시각화 오류 ('차트 범죄') : 발표 당시 공개된 성능 비교 그래프에서 낮은 벤치마크 점수를 더 높은 막대그래프로 표기하는 어이없는 실수가 있었고, 이는 "차트 범죄"라는 비아냥을 들으며 신뢰도에 타격을 주었습니다.

오픈AI의 해명과 사용자 신뢰 회복 노력

이러한 논란이 확산되자, 샘 올트먼 CEO는 사용자 커뮤니티인 레딧(Reddit)에서 직접 질문을 받으며 문제에 대해 해명하고 개선을 약속했습니다.

성능 저하의 원인은 '라우터' 오류 : 올트먼 CEO는 GPT-5의 성능 저하가 출시 첫날 발생한 핵심 기능 '라우터'의 심각한 오류 때문이라고 밝혔습니다. 라우터는 사용자 질문에 가장 적합한 모델을 실시간으로 선택하는 역할을 하는데, 이 기능이 제대로 작동하지 않아 GPT-5가 실제보다 덜 똑똑하게 보였다는 설명입니다. 그는 이 문제가 당일 해결되어 GPT-5의 성능이 정상화될 것이라고 약속했습니다.
투명성 강화 약속 : 앞으로는 어떤 모델이 질문에 답하고 있는지 더 투명하게 공개하고, 사용자가 더 적합한 모델을 이용할 수 있도록 모델 선택 기준을 조정하겠다고 밝혔습니다.
GPT-4o 재사용 옵션 및 이용 한도 2배 확대 : 사용자들의 강력한 요청에 따라 오픈AI는 유료 구독자(플러스 사용자)가 GPT-4o를 계속 사용할 수 있는 방안을 검토 중이며, GPT-5 적용이 완료되면 플러스 구독자의 월간 이용 한도를 2배로 늘리겠다고 약속했습니다.
'따뜻한' 모델 개발 노력 : 올트먼 CEO는 GPT-5 출시 안정화 이후, 사용자들이 GPT-4o에서 느꼈던 '친밀함'을 되찾아줄 수 있도록 GPT-5를 더 '따뜻하게' 만드는 변화에 집중하겠다고 언급했습니다.
'차트 범죄' 인정 : 직접적으로는 피했지만, 소셜미디어 X를 통해 벤치마크 데이터 시각화 오류를 "메가 차트 실수"라고 인정하며 실수를 인정하는 모습을 보였습니다.

이번 논란이 주는 시사점과 앞으로의 전망

이번 논란은 AI 모델 개발에서 성능 안정성과 사용자 경험이 얼마나 중요한지를 보여줍니다. 단순한 기술적 성능 지표보다 사용자가 느끼는 체감 품질이 브랜드 신뢰도에 직접적으로 영향을 준다는 사실이 드러났습니다.
또한, 커뮤니티의 피드백이 빠르게 반영될 수 있는 환경이 기업 경쟁력에 중요한 역할을 한다는 점도 확인할 수 있었습니다.

향후 GPT-5는 성능 안정화와 응답 스타일 개선을 통해 사용자 평가를 되돌릴 수 있을지 주목됩니다. 플러스 구독자 대상 GPT-4o 재사용 옵션과 이용 한도 확대가 실제로 구현될 경우, 단기적으로는 불만 해소에 도움이 될 것입니다.
궁극적으로는 AI 성능 지표와 사용자 경험 간의 차이를 줄이고, 투명한 정보 공개로 신뢰를 강화하는 것이 핵심 과제로 남아 있습니다.

자주 묻는 질문(FAQ)

Q1. GPT-5는 왜 성능이 떨어졌다는 평가를 받았나요?
A. 출시 첫날, 사용자 요청에 맞춰 최적 모델을 선택하는 ‘라우터’ 기능에 오류가 발생했습니다. 이로 인해 GPT-5가 최적의 응답을 내지 못했고, 일부 상황에서는 이전 버전보다 성능이 떨어진 것처럼 보였습니다.

Q2. 라우터 오류는 지금도 발생하나요?
A. 아니요. 오픈AI는 출시 당일 해당 오류를 수정했다고 밝혔습니다. 현재는 정상적으로 작동하고 있으며, 모델 선택 기준을 더욱 투명하게 공개할 계획입니다.

Q3. GPT-4o를 다시 사용할 수 있나요?
A. 오픈AI는 유료 구독자(플러스 사용자)를 대상으로 GPT-4o 재사용 옵션을 검토 중입니다. 최종 결정은 사용자 피드백과 데이터 수집 이후 내려질 예정입니다.

Q4. 플러스 구독자의 이용 한도가 늘어나나요?
A. GPT-5 안정화가 완료되면 플러스 구독자의 월간 이용 한도를 기존의 2배로 확대할 계획입니다. 이는 사용량 제한에 대한 불만을 해소하기 위한 조치입니다.

Q5. GPT-5가 ‘무미건조하다’는 평가는 무엇을 의미하나요?
A. 일부 사용자는 GPT-5의 답변이 짧고 감정 표현이 부족하다고 느꼈습니다. 오픈AI는 향후 모델 튜닝을 통해 GPT-4o처럼 친근하고 몰입감 있는 대화를 구현하겠다고 밝혔습니다.

Q6. 발표 당시의 ‘차트 실수’는 무엇인가요?
A. 성능 비교 그래프에서 낮은 점수를 가진 모델이 더 긴 막대그래프로 표시되는 오류가 있었습니다. 샘 올트먼 CEO는 이를 ‘역대급 실수’라고 인정했습니다.

Q7. GPT-5는 GPT-4o보다 전반적으로 나쁜 건가요?
A. 그렇지 않습니다. GPT-5는 더 많은 기능과 향상된 추론 능력을 갖추었지만, 일부 영역에서 사용자 기대에 미치지 못한 사례가 발생했습니다. 이는 초기 오류와 응답 스타일 차이 때문입니다.

Q8. 앞으로 GPT-5는 어떻게 개선될까요?
A. 성능 안정화, 응답 스타일 개선, 모델 선택의 투명성 강화, 이용 한도 확대 등이 예정되어 있습니다. 특히 ‘따뜻한’ 응답 특성 복원이 핵심 목표 중 하나입니다.

Q9. 이번 논란이 AI 산업에 주는 교훈은 무엇인가요?
A. 기술적 완성도뿐 아니라 사용자 경험이 제품 성공에 매우 중요한 요소라는 점입니다. 또한, 피드백 반영 속도와 투명성이 기업 신뢰도 유지에 필수적임을 보여줍니다.

Q10. 이번 사건 이후 오픈AI의 행보는 어떻게 될까요?
A. GPT-5의 성능과 사용자 경험 개선을 통해 신뢰 회복에 집중할 것으로 보입니다. 동시에 다른 AI 제품과 기능 확장을 통해 경쟁력을 강화할 가능성이 큽니다.