본문 바로가기
경제

New study shows why simulated reasoning AI models don’t yet live up to their billing

by 청코너도전자 2025. 4. 26.
반응형

💡 AI의 수학적 한계 드러나다: “답은 맞지만, 증명은 틀렸다”

최근 공개된 연구에 따르면, 최신 인공지능 모델들이 기초 수학 문제에서는 뛰어난 성능을 보이지만, 국제 수학 경시대회 수준의 증명 문제에서는 거의 전혀 풀지 못하는 것으로 나타났습니다. 이는 ETH 취리히와 소피아 대학교 INSAIT 팀이 진행한 연구에서 확인되었으며, AI의 ‘사고력’에 대한 흥미로운 현실을 드러냅니다.

🤖 AI가 푸는 문제 vs 증명하는 문제

AI가 잘 푸는 문제는 "2+2는 얼마인가?"처럼 단순한 계산 문제입니다. 그러나 수학적 증명 문제는 왜 그런 결과가 나오는지를 단계별로 논리적으로 설명해야 합니다. 이처럼 정답을 찾는 것과 논리적으로 증명하는 것은 차원이 다릅니다.

연구진은 2025년 미국수학올림피아드(USAMO) 문제를 이용해 구글, OpenAI, Anthropic, xAI, DeepSeek 등 주요 AI 모델들을 평가했습니다. 결과는 충격적이었습니다. 대부분의 모델이 평균 5% 미만의 점수를 받았으며, 단 한 문제도 완전한 정답을 낸 모델은 없었습니다. 가장 높은 점수를 받은 Google의 Gemini 2.5 Pro조차 평균 24% 수준이었습니다.

🧮 어디서 어떻게 실패했을까?

AI가 내놓은 수많은 풀이들은 다음과 같은 오류를 공통적으로 보였습니다:

  • 논리 비약: 중간 과정이 빠져 있거나 근거가 부족한 경우
  • 미검증 가정 사용: 자명하지 않은 가정을 증명 없이 전제함
  • 자기모순: 앞서 말한 내용을 뒤엎는 결론을 내림
  • 틀린 내용을 확신에 차서 설명: 잘못된 결과임에도 불구하고 확신에 찬 언어로 마무리

예를 들어, 한 문제에서는 어떤 조건을 충족시키는 정수를 구하라는 질문에 대해, 한 모델은 문제에서 허용하는 경우를 잘못 배제하여 최종 결과를 틀리게 제시했습니다. 심지어 논리적 오류가 있음에도 모델은 자신감 있게 답을 제시했습니다.

🧠 체인 오브 쏘트(chain-of-thought)는 효과가 있을까?

이런 ‘생각하는 듯한 방식’은 실제로 AI의 정답률을 일부 향상시킵니다. 그러나 이는 실제 사고 과정이 아니라, 더 많은 계산 자원을 투입해 ‘패턴 예측’을 조밀하게 수행하는 방식입니다. 결국, 현존 AI는 진정한 수학적 사고가 아니라 학습된 패턴 기반의 문제 풀이를 하고 있는 것입니다.

🔍 진짜 ‘사고하는 AI’를 만들 수 있을까?

딥마인드의 AlphaGeometry와 같이, 신경망 기반과 **기호적 추론(symbolic reasoning)**을 결합한 시스템이 대안으로 떠오르고 있습니다. 이들은 틀린 증명을 생성하지 않고, 논리 구조를 통해 오류를 방지하는 것이 가능하다는 점에서 의미가 있습니다.

🧾 결론

이번 연구는 AI가 수학 문제의 ‘정답’을 찾는 데에는 뛰어나지만, ‘왜 그 정답이 맞는지’를 설명하는 데에는 크게 부족하다는 점을 분명히 했습니다. AI 기술이 아무리 발전하더라도, 깊은 수학적 추론 능력을 갖추기 위해서는 지금보다 전혀 다른 방식의 훈련과 아키텍처가 필요하다는 것이 전문가들의 판단입니다.

반응형