코딩하는 공무원

[파이낸셜 뉴스] 수능 수학 킬러문항 풀게했더니...R1은 12분 걸리고도 오답, o3 미니는 2분만에 정답 (주원규 기자 / 2025.2.3.) 본문

스크랩

[파이낸셜 뉴스] 수능 수학 킬러문항 풀게했더니...R1은 12분 걸리고도 오답, o3 미니는 2분만에 정답 (주원규 기자 / 2025.2.3.)

코딩펀 2025. 2. 3. 11:02

https://www.fnnews.com/news/202502021922264191

 

수능 수학 킬러문항 풀게했더니… R1은 12분 걸리고도 오답, o3 미니는 2분만에 정답

중국 인공지능(AI) 스타트업 딥시크가 가성비 높은 AI 'R1'으로 충격을 주자 오픈AI가 지난 1일(현지시간) 새 저가형 추론 모델 챗GPT 'o3 미니'를 공개하며 맞불을 놨다. R1과 o3 미니의 차이는 얼마나

www.fnnews.com

중국 인공지능(AI) 스타트업 딥시크가 가성비 높은 AI 'R1'으로 충격을 주자 오픈AI가 지난 1일(현지시간) 새 저가형 추론 모델 챗GPT 'o3 미니'를 공개하며 맞불을 놨다. R1과 o3 미니의 차이는 얼마나 될까. 파이낸셜뉴스가 두 모델을 직접 테스트해본 결과 범용적 쓰임새로는 R1과 o3의 결과치가 유사했다. 가성비 측면에선 R1이 압승이다. 다만 정밀 추론이 필요한 영역에선 R1이 o3 미니를 따라가기엔 무리였다.
2일 기자가 추론(Reasoning) 기능이 들어간 두 모델을 이용해 2025학년도 수능 수학 영역에서 가장 오답률이 높았던(95.4%) 22번 문제를 풀게 해봤다. 이 문제는 수열 문제로 복잡한 사고와 고난도의 추론 능력이 필요하다고 평가됐다.
먼저 R1의 경우 추론 과정에 무려 12분13초의 시간을 쓰고도 55라는 오답을 제시했다. 추론 과정을 살펴보니 주어진 조건에 일일이 수를 대입해 보는 이른바 '노가다' 방식을 사용했다. 특히 자신이 도출한 답을 신뢰하지 못해 2번 재검토하는 모습을 보여줬다.
반면 'o3 미니 하이'(높은 추론 단계)는 2분13초 만에 문제를 풀며 64라는 정답을 내놨다. 문제풀이 과정을 '수열의 정의' '최종적으로 구해야 할 값' '결론'의 3가지로 나눠 설명했으며, R1의 비해 추론 과정이 체계적으로 보였다. 이전 모델인 o1까지 추론 과정을 공개하지 않던 오픈AI는 o3미니 모델은 일부 추론 과정을 공개하는 방식을 택했다.
다만 '저비용·고효율' 측면에서는 R1을 무시하기 어렵다는 평가가 나온다. <중략> API 사용료를 비교해 보면 R1은 100만개당 입출력 토큰 비용이 각각 0.14달러·2.19달러이지만 o3 미니는 각각 0.55달러·4.40달러로 2배 이상 비싸다. 
Comments