GPT-4.1 vs Claude 3.7 벤치마크 결과 분석

반응형

AI 코딩 어시스턴트가 계속 발전함에 따라 개발자들에게 가장 도움이 되고, 정확하며, 실행 가능한 피드백을 제공하는 모델은 무엇인지 궁금해하는 분들이 많습니다.

 

Qodo AI 팀은 이러한 의문을 해결하기 위해 GPT-4.1과 Claude 3.7 Sonnet(20250219)를 비교하는 벤치마크를 실시했습니다. 이 벤치마크는 실제 개발 환경에서 중요한 작업인 '풀 리퀘스트(PR)에 대한 코드 개선 제안 생성'을 기준으로 진행되었습니다.

벤치마크 설정

Qodo 팀의 벤치마크 방법론은 다음과 같은 구조로 진행되었습니다.

  1. 데이터셋: 다양한 리포지토리에서 추출한 200개의 실제 풀 리퀘스트(PR)를 수집했습니다.
  2. 프롬프트 일관성: 각 PR에 대해 두 모델에게 동일한 코드 제안 프롬프트를 사용하여 코드 개선 제안을 생성하도록 요청했습니다.
  3. 평가 방법: AI 판정 모델(o3-mini)을 사용하여 두 모델의 출력을 비교하고 어떤 제안이 더 유용하고 정확한지 판단했습니다. (Claude와 GPT-4o 판정 모델로 교차 검증했으며, 유사한 경향을 보였습니다.)

판정 모델 출력 예시

which_response_was_better: 1
why: "Response 1은 PR에 새로 도입된 코드에만 집중하여 병렬성 검사 중 `direction_positive`를 정규화하는 정확한 제안을 제공합니다. 반면 Response 2는 벡터 파일에 대해 유사한 제안을 제공하지만, _functions.py의 데코레이터에 대한 잘못된 제안을 추가하고 있으며, 이는 이미 diff에서 올바르게 구현되어 있습니다."
score_response1: 8
score_response2: 5

결과

200개의 풀 리퀘스트에 대한 벤치마크 결과, GPT-4.1은 54.9%의 경우에서 더 우수한 평가를 받았으며, Claude 3.7 Sonnet은 45.1%의 비교에서 우위를 차지했습니다. 평균적으로 GPT-4.1은 10점 만점에 6.81점을 받아, 평균 6.66점을 기록한 Claude 3.7을 소폭 앞섰습니다.

비록 차이가 크지는 않지만, GPT-4.1이 다양한 코드베이스와 풀 리퀘스트 시나리오에서 보여준 일관된 우위는 실제 개발자 워크플로우에서 의미 있는 이점을 제공한다는 것을 보여줍니다.

 

GPT-4.1의 우수 성능 분석

코드 개선 제안 데이터셋을 분석한 결과, GPT-4.1이 우수한 성능을 보인 주요 영역입니다.

더 나은 시그널 대비 잡음비율

GPT-4.1은 불필요한 변경 제안을 피함으로써 코드 리뷰에서 잡음을 줄이고 오탐을 최소화했습니다.

  • 예시 1: GPT-4.1은 PR diff가 새로운 버그나 문제를 도입하지 않고 단순히 이름을 변경하고 구성 값을 조정하는 경우 빈 목록을 반환했습니다. 반면 경쟁 모델은 새 코드에 명확하게 반영되지 않은 주석 일관성에 대한 제안을 불필요하게 생성했습니다.
  • 예시 2: GPT-4.1은 중요한 버그가 없음을 올바르게 감지하고 빈 제안 목록을 반환했지만, 다른 모델은 diff와 일치하지 않는 중복 키 문제를 발명해서 제안했습니다.
  • 예시 3: PR diff에서 변경이 필요한 중요한 버그를 보여주지 않는 경우, GPT-4.1은 중요한 문제에 대한 수정만 제안하라는 지시에 맞게 빈 목록을 제공했습니다. 반면 경쟁 모델은 명확히 필요하지 않은 제안('=='를 '==='로 변경)을 생성했습니다.

맥락에 더 적합한 버그 탐지

GPT-4.1은 수정된 코드에서 실제 문제를 정확하게 식별하고 실제 변경 사항을 직접 해결하는 제안을 제공했습니다.

  • 예시 1: GPT-4.1은 Dockerfile의 환경 변수 지속성, OpenSSL 빌드 프로세스 중 오류 처리, 심볼릭 링크의 올바른 생성 등 중요하고 명확하게 설명된 중요 문제에 직접 집중했습니다.
  • 예시 2: GPT-4.1은 새 JSON 파싱 코드의 잠재적 런타임 문제를 해결하고 동등성 목록의 중복 속성을 수정하여 더 집중적이고 맥락적으로 관련성 있는 제안을 제공했습니다.
  • 예시 3: GPT-4.1은 정규화 전에 양의 방향 벡터가 영벡터가 아닌지 확인함으로써 실제 잠재적 중요 오류를 해결했지만, 경쟁 모델은 수직 조건에 관한 기존 로직을 잘못 해석했습니다.

작업 요구사항에 대한 우수한 준수

GPT-4.1은 지시사항을 더 잘 따르고, 스타일적이거나 사소한 문제가 아닌 중요한 버그만 식별할 수 있는 능력을 보여주었습니다.

  • 예시 1: GPT-4.1은 분석에 더 집중하여 페어링 프로세스의 중요한 비동기 처리 문제와 모달 대화 상자 중첩 위험을 직접 강조하면서 적절한 nil 검사를 보장했습니다.
  • 예시 2: GPT-4.1은 작업 지침에 따라 비 .NET Framework 환경에서 호환성 문제를 일으킬 수 있는 'System.Web'에 대한 새로운 의존성을 표시함으로써 중요한 문제를 정확하게 식별했습니다.
  • 예시 3: GPT-4.1은 중요한 결제 기능에 대한 널 검사 및 매개변수 유효성 검사를 통해 잠재적 런타임 문제를 해결하여 더 실행 가능하고 관련성 있는 제안을 제공했습니다. 반면 경쟁 모델은 diff에 이미 충분히 구현되어 있거나 눈에 보이는 버그와 직접 연결되지 않은 영역에 집중했습니다.

이 분석을 통해 GPT-4.1의 우수한 성능은 불필요한 수정 제안을 피하고, 수정된 코드에서 실제 문제를 정확하게 식별하며, 진정으로 중요한 문제에 집중함으로써 작업 요구 사항을 더 충실히 준수하는 능력에서 비롯된다는 것을 알 수 있습니다.

결론

GPT-4.1은 풀 리퀘스트에 대한 코드 제안을 생성할 때 정확성, 집중력, 깊이, 실용성의 유망한 조합을 보여줍니다. 침묵해야 할 때와 철저해야 할 때를 이해하는 능력은 실제 개발 워크플로우를 지원하는 AI 도구에 있어 매우 가치 있는 특성입니다.

 

Qodo는 이제 에이전트 코딩 및 테스트를 위한 IDE 플러그인인 Qodo Gen에서 GPT-4.1을 지원합니다. AI가 우리의 일상적인 개발 관행에 계속 통합됨에 따라, 이러한 벤치마크는 우리가 선택하는 도구와 그것을 효과적으로 사용하는 방법에 대한 정보를 제공합니다.

 

VS Code 또는 Jetbrains에서 Qodo Gen의 GPT-4.1을 시도해 볼 수 있습니다.


이 글은 Qodo AI의 Dedy Kredo와 Tal Ridnik이 2025년 4월 13일에 발표한 연구를 바탕으로 작성되었습니다.

Designed by JB FACTORY