GPT-5 써보니까 Claude보다 좋을까? 직접 비교해본 솔직후기
GPT-5가 출시됐다고 해서 바로 Claude보다 좋을까? 똑같은 프롬프트로 직접 테스트해본 솔직한 후기
GPT-5가 드디어 출시되었습니다. 출시 발표를 보면서 가장 궁금했던 건 벤치마크 점수가 아니라 '실제로 써보면 어떨까?'였어요. 그래서 몇 시간이라도 직접 테스트해보기로 했습니다.
똑같은 프롬프트를 GPT-5와 Claude Opus 4.1에 넣어보면서 실질적인 차이를 체감해봤는데요. 생각보다 흥미로운 결과들이 나왔습니다.
첫 테스트에서 드러난 성격 차이
가장 먼저 간단한 게임을 만들어보라고 했어요. 결과는 꽤 대조적이었습니다.
GPT-5는 전체화면으로 깔끔하게 구성된 UI를 보여줬습니다. 사용자 입장에서 바로 이해할 수 있는 직관적인 디자인이었죠. 반면 Claude는 기능적으로는 문제없었지만 UX 측면에서는 아쉬운 부분들이 있었어요.
여기서 가장 인상적이었던 건 속도였습니다. GPT-5가 2분 만에 뚝딱 완성시켰거든요. 너무 빨라서 처음엔 '혹시 미리 준비된 답안을 보여주는 건 아닐까?' 싶을 정도였습니다.
드럼 시뮬레이터로 본 완성도 차이
두 번째는 드럼 시뮬레이터를 만들어달라고 요청했어요. 이번에도 GPT-5가 먼저 완성했고 키보드와 마우스 모두 잘 반응하는 결과물을 내놨습니다. Claude는 시간이 더 걸렸지만 웨이브 사운드까지 포함한 상당히 완성도 높은 결과를 보여줬어요.
재미있었던 건 디자인 센스의 차이였습니다. GPT-5 결과물은 뭔가 현대적이고 세련된 느낌이었다면 Claude 것은 전형적인 "AI스러운" 색감과 배치였거든요. 이런 차이가 있을 줄은 몰랐네요.
진짜 실력을 가늠해본 Next.js 블로그 제작
앞선 테스트들은 OpenAI에서 직접 제공한 예제라는 느낌이 들어서 좀 더 현실적인 작업을 시켜봤습니다. Next.js와 Shadcn 그리고 Tailwind를 활용한 기술 블로그를 만들어달라고 했어요.
Next.js, Shadcn, Tailwind CSS를 사용해서
마크다운으로 운영되는 기술 블로그를 만들어 줘.
현대적인 디자인으로 최대한 트렌디하게 제작해 주세요.
결과는 꽤 극명했습니다.
GPT-5의 결과는 확실히 빨랐어요. 전체 토큰의 8%만 사용해서 금세 완성시켰습니다. 하지만 완성도를 보니 뭔가 성급하게 만든 느낌이었어요. 상세 페이지에 제목도 없고 태그나 날짜 정보도 일관성 없이 표시되더라고요.
Claude Opus 4.1은 시간이 더 걸렸지만 결과물의 완성도가 확연히 달랐습니다. 제목부터 작성자 날짜 예상 읽기 시간까지 블로그에 필요한 모든 요소가 일관성 있게 구현되어 있었어요. 라이트/다크 모드 전환도 완벽하게 작동했고요. 정말 "이거 바로 서비스해도 되겠다"는 생각이 들 정도였습니다.
글쓰기에서 나타난 근본적 차이
마지막으로 Next.js 사용법에 대한 블로그 글을 써달라고 했어요. 속도는 비슷했지만 접근 방식에서 차이가 났습니다.
GPT-5는 바로 기술적 내용으로 들어갔어요. 반면 Claude는 "왜 Next.js를 써야 할까?"부터 시작해서 자연스러운 글의 흐름을 만들어냈습니다. 개인적으로 블로그나 책을 써본 경험으로 봤을 때 Claude의 구성이 훨씬 더 사람다운 글쓰기에 가까웠어요.
현실적인 평가
속도가 최우선이라면 GPT-5가 확실히 매력적입니다. 특히 간단한 작업이나 빠른 프로토타이핑이 필요할 때는 상당한 장점을 보여줘요. OpenAI에서 미리 최적화해둔 것 같은 작업들에서는 정말 놀라운 속도를 자랑합니다.
완성도와 일관성을 중시한다면 Claude Opus 4.1이 아직은 더 나은 선택인 것 같아요. 실제 프로덕션에 바로 적용할 수 있는 수준의 결과물을 원한다면 여전히 Claude가 우위에 있다고 봅니다.
다만 GPT-5가 출시된 지 몇 시간밖에 안 됐으니까 좀 더 써봐야 정확한 판단이 가능할 거예요. 특히 에이전트처럼 지속적인 대화나 복잡한 작업에서는 또 다른 면모를 보여줄 수도 있고요.
개인적으로는 아직 "게임 체인저"라고 부르기엔 이른 것 같습니다. GPT-4 대비 당연한 발전은 있었지만 다른 AI들과 비교했을 때 압도적인 차이는 못 느꼈거든요.
무엇보다 중요한 건 직접 써보는 것 같아요. 벤치마크 점수나 발표 자료보다는 본인의 실제 사용 패턴에서 어떤 차이가 있는지 체험해보는 게 가장 정확한 판단 기준이 될 테니까요.
이 글은 코드팩토리 YouTube 채널의 GPT-5 vs Claude Opus 4.1 비교 영상을 바탕으로 작성되었습니다.