AI, 덧셈보다 뺄셈 훨씬 자주 틀린다

비전공자의 테크노트 2025. 11. 12. 08:40

AI가 덧셈은 잘하는데 왜 뺄셈은 자주 틀릴까?

여러 번 써봤던 경험이 있을 겁니다. AI 챗봇이나 언어모델에게 “3 + 4=?” 라고 물으면 정확히 답하지만, “3 − 4=?” 라고 하면 떠올리는 마이너스 부호가 사라지거나 엉뚱한 정답이 나올 때가 있다는 것을요.
최근 연구도 이 ‘현상’을 확인했습니다. 여러 대형 모델들이 덧셈에서는 거의 완벽한 성능을 냈지만, 뺄셈에서는 정확도가 크게 떨어졌다는 겁니다.
즉, AI가 계산을 못하는 것이 이상한 게 아니라, 뺄셈이라는 작업이 덧셈보다 훨씬 구조적으로 어렵다는 사실을 보여주는 거죠.

왜 그럴까? 뺄셈이 ‘더 복잡한 연산’이라서

덧셈은 숫자를 합치는 작업이라 비교적 직관적입니다. 하지만 뺄셈은 “얼마나 뺐는가”, “누구에서 빼는가”, “결과가 음수인가” 등이 순간적으로 판단되어야 합니다.
AI 내부적으로도 이 부분이 부담스럽습니다. 연구에 따르면 AI 모델은 마이너스 결과일 때 부호(−) 를 올바르게 출력하지 못하는 경우가 많다고 합니다.
또한 숫자의 자리바꿈, 빌림(borrowing) 등이 포함된 문제에서는 오류 확률이 더 올라간다는 분석도 있습니다.
저도 실제로 테스트해보며 “덧셈은 정확한데 뺄셈에서 자꾸 미세하게 틀리네” 하는 순간순간이 있었고, 이 연구 결과가 그 근거가 될 것 같습니다.

그럼 덧셈보다 뺄셈을 AI에게 맡기지 말아야 하나?

그렇진 않습니다. AI는 여전히 놀라운 속도로 계산을 수행하고 있고, 덧셈에서는 거의 사람 수준에 이릅니다.
다만 뺄셈 문제, 특히 음수가 나올 수 있는 경우나 복잡한 자리이월이 필요한 경우에는 검토·재확인이 필요하다는 점만 염두에 두면 됩니다.
즉, AI에게 맡김과 동시에 사람이 ‘체크포인트’를 하나 넣는 방식이 실무적으로 유용하다는 뜻입니다.

실생활과 비즈니스에서 의미하는 바

금융이나 회계처럼 뺄셈(예: 비용-수익, 차손 등)이 핵심인 분야에서는 AI의 계산을 맹신하기보다는 결과를 확인하고 검증하는 구조가 더 중요해졌습니다.
코딩이나 개발에서 AI 보조 도구가 숫자 계산을 할 때, 뺄셈 결과를 사람이 다시 리뷰하게끔 워크플로우를 바꾼 조직도 생겼습니다.
이처럼 “덧셈은 믿어도, 뺄셈은 확인하자”는 관점이 AI 활용의 현실적인 태도로 자리 잡아가고 있습니다.

AI가 뺄셈을 잘하도록 만들 수 있을까?

충분히 개선 여지는 있습니다. 실제로 연구에서는 instruction-tuning이라고 해서 AI에게 뺄셈 문제 예시를 많이 보여주고 학습시키면 정확도가 크게 올라간다는 결과가 나왔습니다.
또 한편에서는 AI가 자신의 오류를 학습하고 고치는 실수 학습(learning by mistakes) 방식도 제안되고 있습니다.
앞으로는 “AI가 뺄셈을 틀릴 가능성”을 전제로 설계하고, 이를 보완하는 방식이 더 일반화될 것으로 보입니다.

나의 경험: 작은 체크포인트가 큰 차이를 만든다

저도 AI 도구를 여러 번 테스트하며 느꼈던 게 있습니다.
“덧셈 결과는 괜찮지만, 뺄셈에서 마이너스 부호가 빠지거나 예상치 못한 숫자가 나왔다”는 패턴이 반복됐었죠.
그 덕분에 프로젝트에서 “뺄셈 포함 산술엔 사람 검토를 넣자”는 규칙을 만들었습니다.
작지만 이런 습관 덕분에 오류로 인한 리스크를 줄일 수 있습니다.

결론 : AI가 뺄셈을 틀리는 건 이상한 일이 아니다

AI가 뺄셈보다 덧셈을 잘하는 이유는 단순한 ‘모델이 못해서’가 아니라, ‘문제를 푸는 방식이 인간과 다르기 때문’ 입니다.
덧셈은 패턴 암기로 충분하지만, 뺄셈은 순서·음수·자리이월 같은 복잡한 규칙이 섞여 있죠. 이 구조적 차이를 이해하면, AI의 한계를 더 잘 활용할 수 있습니다.
즉, AI에게는 덧셈을 맡기고, 뺄셈은 사람과 협업하는 방식이 현실적인 전략입니다.
앞으로 AI가 더 나아질 것이지만, 지금 당장은 “덧셈은 믿되, 뺄셈은 검사하자”는 태도가 더 안전합니다.

FAQ

Q1. 정말로 AI가 덧셈보다 뺄셈을 더 자주 틀리나요?
네, 실제 연구 결과 그렇게 나타났습니다. 여러 대형 언어모델(LLM)을 테스트했더니, 덧셈 문제는 거의 완벽하게 맞추는 반면 뺄셈에서는 정확도가 절반 수준으로 떨어졌다는 보고가 있었습니다. 예를 들어 “523 + 278”은 잘 맞추지만, “523 − 278”에서는 자릿수를 헷갈리거나 부호(–)를 놓치는 일이 자주 생긴다는 거죠.

Q2. 왜 하필 뺄셈이 그렇게 어려운 걸까요?
덧셈은 단순히 숫자를 더하는 구조라서 계산 규칙이 일정합니다.
반면 뺄셈은 ‘누가 누구에서 빠지는지’ 순서가 중요하고, 자리에서 수를 빌려오는 자리이월(borrowing) 과정도 필요합니다. 이런 과정은 AI에게 훨씬 복잡하게 느껴집니다. 특히 마이너스 부호(–)를 붙여야 하는 경우, AI는 그 표시를 종종 생략하거나 잘못 붙이는 실수를 합니다.

Q3. 이런 실수가 생기는 건 AI가 계산을 못해서인가요?
그렇다기보다는 AI가 계산 과정을 ‘이해’하지 못하기 때문입니다.
AI는 계산기를 내장하고 있는 게 아니라, 수많은 예시 데이터를 학습해서 “이런 패턴일 때 이런 결과가 나오더라”를 기억하는 방식으로 작동합니다.
덧셈 패턴은 데이터에서 자주 등장하지만, 뺄셈은 음수나 자리이월이 섞여 예외가 많다 보니 AI가 헷갈리기 쉬운 겁니다.

Q4. 그렇다면 AI에게 뺄셈은 ‘수학 문제’라기보다 ‘언어 문제’인가요?
정확히 그렇습니다. AI는 숫자도 결국 “문자열”로 인식합니다.
즉, AI는 345와 678을 ‘숫자’가 아니라 ‘토큰(token)’으로 본 뒤, 단어처럼 패턴을 예측합니다.
그래서 수학적 계산이 아니라 문자열 조합의 문제로 접근하는 셈이죠. 이 때문에 덧셈보다 뺄셈이 더 자주 틀리는 것입니다.

Q5. 그럼 AI에게 뺄셈을 시키면 안 되나요?
꼭 그런 건 아닙니다.
단순한 계산에서는 충분히 정확하고, 대부분의 실수는 음수나 자리이월이 섞일 때 나타납니다.
즉, AI를 사용할 때는 “복잡한 계산은 사람이 검증하고, 단순한 건 AI에 맡긴다” 정도로 역할을 나누면 됩니다.
실무에서도 금융이나 회계처럼 수치가 중요한 분야는 AI의 계산을 사람이 한 번 더 확인하는 시스템을 씁니다.

Q6. 이건 단순한 재미있는 현상인가요, 아니면 중요한 문제인가요?
둘 다입니다. 단순한 산술 차이처럼 보이지만, 사실은 AI의 사고 구조와 한계를 보여주는 중요한 지표입니다.
AI가 단순 연산조차 완전히 정확히 수행하지 못한다는 건, 복잡한 수리·논리 문제에서도 여전히 오류가 날 수 있다는 뜻이기도 하죠.
그래서 AI의 ‘신뢰성’을 평가할 때 이런 기초 산술 문제를 함께 검증하기도 합니다.

Q7. AI가 스스로 이런 실수를 고칠 수 있나요?
가능합니다. 연구자들은 AI가 자신이 틀린 문제를 다시 학습하도록 하는 ‘실수 학습(learning from mistakes)’이나, 뺄셈·음수 예시를 많이 보여주는 instruction-tuning(지시어 학습) 방식을 사용하고 있습니다.
이렇게 하면 AI의 뺄셈 정확도가 덧셈 수준으로 향상된다는 실험 결과도 나왔습니다.

Q8. AI가 덧셈과 뺄셈을 다 잘하게 되면 뭐가 달라지나요?
AI가 산술 연산을 완벽하게 수행할 수 있다면, 단순 계산을 넘어 데이터 분석·회계·수치 예측 같은 실무 영역에서도 훨씬 신뢰도 높은 도구가 됩니다.
즉, 지금은 단순한 뺄셈 실수처럼 보여도, 이 문제를 해결하는 과정이 ‘정확한 계산을 이해하는 AI’로 진화하는 발판이 됩니다.

Q9. 사람도 뺄셈이 더 어렵지 않나요?
맞습니다. 인간도 덧셈보다 뺄셈을 어려워합니다.
수학 학습에서도 아이들이 뺄셈을 배우는 시기가 덧셈보다 늦고, 실수율도 더 높습니다.
AI가 사람의 인지 구조를 일정 부분 닮아 있다면, 이런 차이가 반영되는 것도 어쩌면 자연스러운 일입니다.

Q10. 앞으로 AI에게 수학을 더 잘 가르치려면 어떻게 해야 하나요?
핵심은 ‘정답을 외우게 하는 것’이 아니라 ‘과정을 이해시키는 것’입니다.
AI에게도 단계별 연산 과정(예: 자리이월, 부호 처리)을 명시적으로 학습시키면 정확도가 개선됩니다.
이처럼 AI가 단순히 결과를 예측하는 수준에서 벗어나, “왜 이런 계산을 해야 하는가”를 스스로 추론하도록 가르치는 연구가 활발히 진행 중입니다.

Can LLMs subtract numbers?

Can LLMs subtract numbers? Mayank Jobanputra1, Nils Philipp Walter2, Maitrey Mehta3, Blerta Veseli1, Evan Parker Kelly Chapple1, Yifan Wang1, Sneha Chetani1, Ellie Pavlick4, Antonio Vergari5, Vera Demberg1 1Saarland University 2CISPA Helmholtz Center fo

arxiv.org

Learning From Mistakes Makes LLM Better Reasoner

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve their reasoning capabilities, this work explores whether LLMs can LEarn from MistAkes (LEMA), akin to the human learning process.

arxiv.org

2025.11.06 - [AI] - AI가 코드를 짜는 시대, 개발자의 미래는

2025.11.06 - [AI] - AI 모델끼리 ‘생각’을 직접 주고받는다

2025.10.27 - [AI] - AI가 일터를 차지한 사이, 사람의 권리도 사라졌다

2025.10.19 - [AI] - 다중 AI 에이전트, 전문화된 AI들의 협업 시대