본문 바로가기
AI

오픈AI, 실시간 음성 모델과 API 정식 출시

by 비전공자의 테크노트 2025. 8. 31.
반응형

 오픈AI, 실시간 음성 모델과 API 정식 출시

 

오픈AI(OpenAI)가 실시간 음성 인공지능 모델 ‘gpt-리얼타임(gpt-realtime)’과 ‘리얼타임 API(Realtime API)’를 정식 출시했습니다. 이번 발표는 기업용 음성 AI 애플리케이션 시장을 본격적으로 겨냥한 조치로, 고객 상담·교육·스마트 기기 등 다양한 분야에서 활용될 전망입니다.

 이제 단순히 텍스트로 대화하는 챗봇을 넘어서, 진짜 사람처럼 목소리로 대화하는 AI가 본격적으로 등장한 겁니다.

오픈AI, 실시간 음성 모델과 API 정식 출시

 

새로운 구조: 음성 직접 처리

 

기존 음성 AI는 음성 인식(STT), 언어 처리, 음성 합성(TTS) 단계를 거치는 다중 파이프라인 방식이 주류였습니다. 그러나 gpt-리얼타임은 이러한 구조를 단일화하여 음성을 직접 처리합니다. 이로써 모델 지연이 줄어들고, 억양·호흡·웃음 같은 비언어적 신호까지 인식할 수 있습니다.

또한 다국어 지원과 실시간 언어 전환, 특정 억양 적용도 가능해졌습니다. 오픈AI는 실제 고객 상담과 학습 지도 환경을 반영해 모델을 훈련했다고 밝혔습니다.

 

어디에 쓰일까?

  • 고객센터: 상담원이 대신 받을 수 없는 전화도 AI가 응대.
  • 학습 도우미: 영어 억양까지 교정해주는 선생님 역할.
  • 스마트홈: “불 꺼줘” 같은 명령이 더 자연스럽게 작동.
  • 사진 설명: 스크린샷이나 사진을 보여주면 바로 설명해줌.

개발자도 편해졌습니다. API가 SIP와 MCP를 지원하기 때문에, 기존 전화망이나 다른 서비스와 연결이 훨씬 간단해졌습니다.

오픈AI, 실시간 음성 모델과 API 정식 출시

 

리얼타임 API의 확장 기능

 

리얼타임 API는 기업 환경에서의 통합성과 실무 활용성을 강화했습니다.

  • SIP(세션 개시 프로토콜) 지원: 기존 전화망·PBX 시스템과 직접 연결되어 콜센터에 즉시 도입 가능.
  • MCP(Model Context Protocol) 지원: 외부 도구와 서비스 연동을 단순화, 개발자가 쉽게 기능을 통합 가능.
  • 이미지 입력 기능: 스크린샷이나 사진을 공유하면 실시간 설명 제공.
  • 비동기 함수 호출: 데이터베이스 질의 등 시간이 걸리는 작업 중에도 대화 흐름이 끊기지 않음.

성능 지표 개선

 

오픈AI는 새 모델의 벤치마크 성능을 공개했습니다.

  • Big Bench Audio 정확도: 82.8% (이전 65.6% → 대폭 향상)
  • MultiChallenge 오디오 벤치마크: 30.5% (기존 20.6%)
  • ComplexFuncBench 성능: 66.5% (기존 49.7%)

가격 또한 경쟁력을 높였습니다. 입력 100만 오디오 토큰당 32달러, 출력 64달러로, 기존 대비 20% 인하했습니다.

 

치열해지는 음성 AI 경쟁

 

현재 음성 AI 시장은 빅테크와 스타트업 간 경쟁이 가속화되고 있습니다.

  • 일레븐랩스: ‘컨버세이션 AI 2.0’ 공개
  • 사운드하운드: 패스트푸드 드라이브스루용 음성 AI 공급
  • 흄(Hume): 목소리 복제 모델 ‘EVI 3’ 출시
  • 구글: ‘노트북LM’에서 오디오 기능 강화
  • 미스트랄: 실시간 번역 모델 ‘복스트랄(Voxtral)’ 공개
  • 마이크로소프트: 최대 90분, 4인 화자 음성 합성 지원 ‘VibeVoice-1.5B’ 출시

이 치열한 전장에서, 오픈AI가 내놓은 무기는 실시간 반응과 낮아진 가격입니다. 앞으로 음성 AI 경쟁은 더욱 뜨거워질 것으로 보입니다.

반응형