이코노믹데일리 - 정확한 뉴스와 깊이 있는 분석
금융
산업
생활경제
IT
ESG
건설
정책
피플
국제
이슈
K-Wave
전체기사
검색
패밀리 사이트
아주경제
아주로앤피
아주일보
회원서비스
로그인
회원가입
지면보기
네이버블로그
2025.12.16 화요일
안개
서울 4˚C
맑음
부산 -2˚C
흐림
대구 -2˚C
흐림
인천 5˚C
흐림
광주 6˚C
흐림
대전 5˚C
맑음
울산 4˚C
흐림
강릉 6˚C
구름
제주 9˚C
검색
검색 버튼
검색
'인공지능성능비교'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
1
건
韓 '소버린 AI', 수능 수학 풀게 했더니… 해외 모델에 완패
[이코노믹데일리] 정부가 주도하는 '국가대표 AI' 프로젝트 참여사들의 대형언어모델(LLM)이 수학 문제 해결 능력에서 해외 경쟁 모델에 크게 뒤처지는 것으로 나타났다. 파이썬 도구를 활용하는 등 보정 작업을 거쳤음에도 해외 빅테크 기업들의 기술 격차를 좁히지 못했다는 분석이다. 15일 김종락 서강대 수학과 교수 연구팀은 국내 5개 소버린 AI 모델과 해외 5개 모델을 대상으로 수능 수학 및 논술 문제를 풀게 한 결과 이 같은 격차가 확인됐다고 밝혔다. 연구팀은 수능 고난도 문항과 국내외 대학 입시 문제 등 총 50개 문항을 선정해 테스트를 진행했다. 비교 대상이 된 국내 모델은 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 '라마 바르코 8B 인스트럭트' 등이다. 해외 모델은 오픈AI의 'GPT-5.1', 구글 '제미나이 3 프로', 앤스로픽 '클로드 오퍼스 4.5' 등이 포함됐다. 평가 결과 해외 모델들은 76~92점대의 높은 정답률을 기록한 반면 국내 모델은 대부분 20점대에 머물렀다. 해외 모델 중에서는 구글 제미나이 3 프로가 92점으로 1위를 차지했고 클로드 오퍼스 4.5(84%)와 xAI의 그록 4.1(82%)이 뒤를 이었다. 국내 모델 중에서는 업스테이지의 솔라 프로-2가 58점으로 가장 선전했지만 나머지 모델들은 20점대 초반에 그쳤고 엔씨소프트의 경량 모델은 2점에 불과했다. 연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워 파이썬을 연산 도구로 활용하도록 설계했음에도 성적이 저조했다고 설명했다. 보다 심화된 난이도의 자체 개발 문제 세트 '엔트로피매스' 평가에서도 결과는 비슷했다. 해외 모델은 80~90점대의 고득점을 유지했으나 국내 모델은 7~53점대로 편차가 컸다. 3회 시도 기회를 부여하는 방식에서도 해외 모델은 만점이나 90점대를 기록한 반면 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점에 그쳤다. 김종락 교수는 "현재 공개된 버전 기준으로 국내 모델의 수준이 글로벌 프런티어 모델보다 뒤처짐을 확인했다"며 "각 팀이 개발 중인 차세대 국가대표 AI 모델이 공개되면 다시 성능을 검증할 계획"이라고 말했다.
2025-12-15 10:39:09
처음
이전
1
다음
끝
많이 본 뉴스
1
삼성·HD현대重, 내년 수익성 시험대…LNG선 발주 재개 앞두고 '선가 중립'
2
현대차그룹 사장단 인사 18일 유력…R&D 수장 교체 임박
3
스마일게이트 '통합' vs 넥슨·NC '분사'… 게임업계 엇갈린 생존 방정식
4
[지다혜의 금은보화] "26원 받았다" 김우빈도 쓰는 토스뱅크…'디지털 폐지 줍기' 앱테크 인기
5
韓 '소버린 AI', 수능 수학 풀게 했더니… 해외 모델에 완패
6
비계열 확대한 현대글로비스…OEM 의존도 '양날의 검' 되나
7
정부, 26년 만에 '지정거래은행 제도' 폐지…토스·케이·카카오뱅크 수수료 경쟁 가속
8
네이버·카카오, 서로 다른 AI 에이전트 전략…내년 '분기점'
영상
Youtube 바로가기
오피니언
[데스크 칼럼] LS의 '양손', 그리고 포스트 구자은의 시나리오