본문 바로가기
AI

인공지능(AI)의 2026학년도 수능 도전

by 비전공자의 테크노트 2025. 11. 24.
반응형

🧠 인공지능(AI)의 2026학년도 수능 도전 : AI는 정말 ‘인간 시험’을 이길 수 있을까?


AI가 수능 시험지를 받아 들었다는 의미

2026학년도 대학수학능력시험(수능)을 실제 생성형 인공지능(AI) 모델에게 풀게 한 두 건의 실험은 단순한 흥미 테스트를 넘어서 AI의 사고 능력과 언어 이해력의 실제 수준을 객관적으로 검증하려는 시도였습니다. 이 실험들은 AI가 특정 영역에서는 인간 상위권을 능가하는 성취를 보이는 반면, 언어·맥락·복합 추론에서는 여전히 한계가 명확하다는 점을 보여주었습니다. 특히 한국어 기반 시험에서의 약점은 ‘해외 기업 중심의 AI 개발 구조’가 가진 구조적 문제를 그대로 드러냅니다.

인공지능(AI)의 2026학년도 수능 도전

 

연세대 연구팀의 실험: AI의 강점과 약점이 가장 선명히 드러나다

1) 실험 조건

연세대 김시호 교수팀은 GPT-5, 제미나이 2.5 플래시, 딥시크 최신 모델, 퍼플렉시티 소나를 대상으로 국어·영어·수학 영역 평가를 진행했습니다.

  • 인터넷 검색 금지
  • 듣기 문제는 대본 제공
  • 수학 수식은 LaTeX 변환 후 입력
  • 표·그래프 문제는 PDF로 입력

실험 환경은 가능한 한 실제 수능과 동일하게 구성했습니다.

2) GPT-5의 성적

GPT-5는 전체 모델 중 가장 높은 총점을 기록했습니다.

  • 수학: 1등급 수준(96/92/84점)
  • 영어: 86점
  • 국어: 53점·37점으로 매우 낮은 점수

즉 수학에서는 인간 최상위권과 가까웠지만, 국어에서는 상위권 진입이 어려운 점수대에 머물렀습니다. 이 결과만 보면 종합 성적이 ‘인서울 대학 진학 기준에 크게 부족하다’는 평가가 나올 정도였습니다.

3) 딥시크와 기타 모델

  • 딥시크는 국어·영어에서는 우수했으나 수학에서 매우 낮은 점수를 받아 종합 2위
  • 제미나이는 국어가 취약해 전체적으로 중위권
  • 퍼플렉시티 소나는 응답 오류와 인터넷 검색 시도로 최하위

특히 국어 영역에서 AI들은 ‘문제의도 파악’과 ‘언어적 모호성 해석’에서 공통적으로 어려움을 겪었습니다.

 

순천향대 실험: 최신 AI는 완전히 다른 레벨이었다

1) GPT-5.1의 압도적 성능

GPT-5.1은 450점 만점 중 433점을 기록했습니다.

  • 국어 98점
  • 수학 만점
  • 영어 만점
  • 과학탐구는 일부 한계(물리Ⅰ 38점)

이 점수는 사실상 인간 전국 최상위권 이상이며, 최신 모델의 성능 도약을 보여주는 결정적 사례입니다.

2) 기타 모델

  • GPT-5.1 코덱스: 421점
  • 제미나이 2.5 프로: 417.7점(국어 99점 최고점)
  • GPT-4o: 291.8점으로 최하위

세대별 성능 차이가 모델 간보다 훨씬 크다는 점이 확인되었습니다.

 

영역별 성능 비교: 왜 어떤 과목은 잘하고, 어떤 과목은 못할까?

1) 강점: 수학·영어·한국사

AI는 규칙 기반 계산, 구조화된 독해, 지식 암기 영역에서 두드러진 성능을 보여주었습니다.
특히 수학은 GPT-5.1을 비롯해 일부 모델이 인간 최고 수준을 능가할 정도였으며, 이는 AI의 계산 능력과 오류 없는 연산 처리 능력이 결합된 결과입니다.

2) 약점: 국어·물리Ⅰ

  • 국어는 고유한 개념적 비유, 언어적 뉘앙스, 복합적 맥락 해석이 필요
  • 물리는 수식·도표·이미지가 복합적으로 등장해 멀티모달 추론이 요구

AI는 이 두 영역에서 인간 수준의 ‘직관적 이해’를 재현하는 데 아직 부족합니다.

 

AI가 한국형 시험에 약한 이유: 언어와 문화의 벽

전문가들은 해외 AI 모델이 한국어 기반 시험에서 낮은 성적을 보이는 주요 요인으로 학습 데이터 편향을 꼽습니다.

  • 개발사 우선순위에서 한국어는 후순위
  • 훈련 데이터의 질·양 제한
  • 한국식 문제 구성 방식에 대한 낮은 친화도

실제로 중국 저장대 연구에서 중국어 환경에 특화된 딥시크가 중국어 법률 시험에서 GPT 계열보다 높은 성능을 보였던 사례는 ‘개발국 언어·문화의 영향력’을 잘 보여줍니다.

 

결론: 수능은 앞으로 한국형 AI 성능 평가에 중요한 기준이 될 것

두 실험은 AI가 특정 과목에서는 인간을 능가할 수 있지만, 복잡한 사고와 언어 맥락 이해의 영역에서는 여전히 한계를 드러낸다는 점을 다시 한 번 확인시켰습니다.
특히 수능은 한국어 기반 추론, 복합적 사고, 도표·이미지 해석까지 요구하기 때문에 ‘국내 소버린(주권) AI’ 개발의 핵심 벤치마크가 될 가능성이 큽니다.

개인적으로 다양한 AI 모델을 실험해보면서 느낀 점은, 수식과 규칙 기반 문제는 확실히 인간보다 빠르고 정확하게 처리하지만, 글의 숨은 의도나 미묘한 뉘앙스를 이해시키려면 여전히 여러 단계의 설명과 재질문이 필요하다는 점입니다. 이번 실험 결과는 그런 경험을 학술적으로 다시 확인해주는 사례라고 생각됩니다.

 

AI의 2026학년도 수능 도전: FAQ

Q1. 이번 AI 수능 실험은 어떤 목적에서 진행되었나요?

이번 실험은 최신 생성형 AI 모델들이 한국형 학업 평가에서 어느 정도의 성취도를 보여줄 수 있는지 객관적으로 파악하기 위한 목적에서 진행되었습니다. 특히 수능이라는 구조화된 평가 도구를 활용해 AI의 언어 이해, 추론, 문제 해결 능력을 다각도로 점검하고자 했습니다. 이를 통해 AI의 발전 수준과 한계, 그리고 향후 교육·평가 영역에서의 활용 가능성을 평가하는 데 의미가 있습니다.

Q2. 실험은 어떻게 진행되었나요?

두 가지 독립적인 실험이 진행되었습니다.

  1. 연세대 연구팀 실험: GPT-5 등 주요 생성형 AI를 대상으로 국어·영어·수학을 평가했습니다.
  2. 순천향대 학생 실험: GPT-5.1, 제미나이 2.5 프로 등 15개 모델을 대상으로 국어·수학·영어·한국사·과학탐구까지 확장된 평가를 실시했습니다.

모든 실험에서 실제 수능과 유사한 환경이 적용되었으며, 인터넷 검색이 차단되고 표·이미지 자료는 별도 파일로 제공되는 등 정교한 통제 조건이 만들어졌습니다.

Q3. GPT-5와 GPT-5.1은 어떤 성적을 기록했나요?

모델 버전별로 성과 차이가 뚜렷하게 나타났습니다.

  • GPT-5 (연세대 실험)
    • 수학: 안정적인 1등급
    • 영어: 2등급 수준
    • 국어: 매우 낮은 점수
    • 총점: 여러 모델 중 종합 1위지만 “인서울 기준 미달” 평가
  • GPT-5.1 (순천향대 실험)
    • 총점 450점 만점 중 433점
    • 수학·영어 만점, 국어 98점 등 전 과목 고득점
    • 복잡한 과학탐구 영역에서는 일부 한계가 관찰됨

이는 최신 AI 모델의 성능이 세대 교체에 따라 빠르게 향상되고 있음을 보여주는 결과입니다.

Q4. 어떤 모델이 가장 우수한 성적을 거두었나요?

두 실험 중 가장 높은 점수는 GPT-5.1(433점) 이 기록했습니다.
이 모델은 수학과 영어에서 만점, 국어와 과학탐구에서도 상위권 점수를 유지해 종합 성능 면에서 단연 돋보였습니다.
한편 연세대 실험에서는 GPT-5가 가장 좋은 성적을 거두었지만, 전체 점수는 대학 입시에 적용하기에는 여전히 미흡한 수준이었습니다.

Q5. AI는 수능에서 어떤 과목에 강하고 어떤 과목에 약한가요?

강점

  • 수학: 대부분의 최신 모델이 인간 상위권 수준을 기록했으며, 계산·규칙 기반 문제에 특히 강합니다.
  • 영어: GPT 계열 모델은 듣기·독해에서 안정적인 고득점을 기록했습니다.
  • 한국사: 지식 기반 암기형 과목에서는 다수 모델이 만점을 기록했습니다.

약점

  • 국어 영역, 특히 ‘언어와 매체’: 문맥 추론, 고유한 표현 방식, 한국어 특유의 글쓰기 구조를 이해하는 데 한계를 보였습니다.
  • 과학탐구(물리Ⅰ): 도표와 이미지 기반 문제, 복잡한 현상 추론 문제에서 낮은 점수를 기록했습니다.
  • 고난도 변별 문항: 최상위권 변별용 문제에서 대부분 오답을 제출했습니다.

Q6. 왜 AI는 국어와 물리 과목에 약한가요?

전문가들은 이를 언어·문화적 제약훈련 데이터의 편향 때문으로 분석합니다.
대부분의 모델은 해외 기업에서 개발되며, 한국어와 한국식 사고 구조에 최적화된 학습이 이루어지지 않습니다.
또한 물리 문제는 이미지·도표·추론이 복합적으로 결합되어 있어 단순 언어 처리 능력으로 해결하기 어렵습니다.
즉, 한국형 평가에는 언어적 섬세함과 복합적 논리 구조가 요구되기 때문에 AI가 약점을 드러낼 가능성이 큽니다.

Q7. 이번 실험에서 부정행위나 오류는 없었나요?

일부 모델에서는 실험 과정에서 비정상적 반응이 관찰되었습니다.
특히 퍼플렉시티 소나는 인터넷 검색을 시도하는 등의 행동을 보여 부정행위로 처리될 수 있는 상황이 발생했습니다.
또한 일부 모델은 응답이 중단되거나 과도하게 추측 기반 응답을 제출해 성적이 낮게 나왔습니다. 이는 모델의 안정성과 시험 적합성에 대한 추가 검토가 필요함을 시사합니다.

Q8. AI의 성적을 실제 입시 기준에 적용하면 어느 정도 수준인가요?

연세대 실험 기준으로는 상위 모델(GPT-5)조차 ‘인서울 대학 진학이 어려운 점수’ 라는 평가가 나왔습니다.
반면 최신 모델을 포함한 순천향대 실험에서는 일부 AI가 전 과목 최상위권에 해당하는 성적을 기록했습니다.
즉, AI의 성능은 모델 버전 차이와 학습 데이터 구성에 따라 큰 편차가 존재합니다.

Q9. 이번 실험이 국내 AI 개발에 어떤 의미를 가지나요?

전문가들은 이번 실험이 소버린(주권) AI 개발의 필요성을 확인해준 사례라고 평가합니다.
한국어 특화 추론 능력은 해외 모델의 공통적인 약점으로 확인되었기 때문에, 이를 보완하려면 국내 언어·문화·교육 체계에 기반한 모델 개발이 필수적입니다.
수능은 언어와 추론의 복합적 평가 요소를 갖추고 있어 국내 AI 성능의 평가 지표로 적합하다는 의견도 제기되고 있습니다.

Q10. 이번 AI 수능 실험이 향후 어떤 연구에 활용될 수 있을까요?

수능은 단순 교과 지식뿐 아니라 언어 해석력, 논리 기반 추론, 자료 해석 등 다양한 능력을 평가하는 도구입니다.
따라서 이번 실험 결과는 다음과 같은 연구에 활용될 수 있습니다.

  • 한국어 특화 AI 모델 개발
  • 멀티모달 문제 해결 능력 향상
  • 교육·입시 AI 도구의 신뢰성 평가
  • AI 학습 데이터 구성의 지역·언어적 균형 연구
  • 인간과 AI 간 능력 비교 및 협업 방식 설계

전반적으로 이번 실험은 AI의 놀라운 발전과 분명한 한계가 동시에 드러난 사례로, 향후 기술 발전과 정책 논의에 중요한 기준이 될 것으로 보입니다.

 

2025.11.21 - [AI] - 에이전틱 AI, 챗봇에서 동료로

 

에이전틱 AI, 챗봇에서 동료로

챗봇을 넘어서 '동료 AI' 로기업에서 AI를 도입하는 방식은 최근 몇 년간 급격히 변화해 왔습니다. 과거에는 고객 문의에 자동응답하는 챗봇(Chatbot)이 주를 이루었지만, 이제는 AI가 단순 보조 역

myitstory.co.kr

2025.11.20 - [AI] - AI 경쟁력은 ‘질문’이 아니라 ‘환경’에 있다, 컨텍스트 엔지니어링

2025.11.19 - [AI] - 구글 ‘제미나이 3’ 출시 : AI 경쟁 구도의 변곡점

2025.11.13 - [AI] - GPT-5.1, “더 따뜻하고 더 똑똑하게” 돌아오다

2025.11.11 - [AI] - AI, 덧셈보다 뺄셈 훨씬 자주 틀린다

 

반응형