
구글과 오픈AI가 올해 내놓은 최신 인공지능(AI) 모델이 역대 최초로 환각률 0%대를 기록했다. 환각은 AI 모델이 부정확한 답을 생성하는 것을 의미하는데, 이제는 AI가 질문 100개 중 99개 이상에서 옳은 답을 제공하는 수준으로 발전한 것이다.
이처럼 AI 모델 성능이 획기적으로 개선되면서 환각 현상을 이유로 AI 활용을 주저하던 법률 등 전문 분야에서 AI를 도입하거나 효율적으로 문제를 해결하도록 도와주는 AI 에이전트 시장에도 보다 속도가 날 전망이다.
9일 미국 AI 스타트업 벡타라의 환각률 벤치마크(HHEM)에 따르면 구글이 지난 5일(현지시간) 출시한 제미나이 2.0 제품군은 환각률 0.7%로 그동안 공개된 모든 상용 모델 중 가장 낮은 수치를 기록했다.
구글은 지난해 나왔던 직전 모델 제미나이 1.5 플래시에서는 3.4%의 환각률을 보였는데, 약 반년 만에 환각률이 2.7%포인트 개선된 것이다.
오픈AI의 경우 추론 특화 모델인 o1에서 o3로 넘어가면서 약 4개월 만에 환각률이 1.6%포인트 낮아졌다.
오픈AI가 지난달 선보인 모델 o3 미니 하이는 환각률 0.8%를 나타내면서 제미나이 2.0에 앞서 최초로 1% 미만에 진입하는 성과를 거뒀다. 이날까지 벤치마크에서 0%대를 기록하고 있는 것은 두 기업뿐이다. 해당 벤치마크는 특정 문서를 AI에 준 다음 답변 성능을 분석하는 방식으로 산정됐다. 업계에서는 모든 사례의 환각을 측정하지 못한다는 한계가 있지만 추론 정확도가 빠르게 개선되는 추이는 볼 수 있다고 설명했다.
환각률이 0%대에 진입했다는 것은 AI가 실수할 확률이 낮아지고 있음을 의미한다. AI 모델 사용 초기에는 이 같은 환각 현상이 상대적으로 심했으나 사후 훈련이 강화되고 문서 해석 중 AI가 맥락을 놓치는 문제 등도 해결되면서 꾸준히 환각률도 좋아졌다.
AI 검색 스타트업 라이너의 허훈 테크 리드는 "최근 AI 모델들이 흔히 STEM(과학·기술·공학·수학) 영역을 기반으로 추론 능력을 강화했는데, 이러한 성능이 모든 도메인에 일반화될 수 있다는 사례가 계속 나오고 있다"며 "라이너도 검색 문제를 푸는 데 있어 추론 모델을 적극 도입하고 있다"고 설명했다.
업계에서는 환각률이 꾸준히 개선되면서 자연스럽게 AI 모델에 대한 신뢰성이 계속 상승할 것으로 보고 있다. 이는 답변을 넘어 AI가 보다 많은 행동을 수행하도록 하는 에이전트 서비스 활성화 흐름과도 맞물린다.
가령 판례를 분석하고 법률 자문을 해주는 법률 에이전트나 보험상품 관련 업무에 응대하는 보험 에이전트 등 실수가 용납되지 않은 영역에서 AI 활용도 늘어날 수 있다. 한 업계 관계자는 "이러한 흐름은 현실로 이미 많이 다가와 있다"고 전했다.
지난 4일 방한해 최초로 국내 개발자를 만난 샘 올트먼 오픈AI 최고경영자(CEO)도 당시 행사에서 "AI 모델 o 시리즈부터 환각을 획기적으로 줄였다"고 소개한 바 있다.
오픈AI는 이 같은 추론 성능을 바탕으로 마치 연구원처럼 리서치에 특화된 '딥 리서치' 기능을 이달 선보였다. 세일즈포스는 재무·뱅킹·영업·커머스 등 다양한 산업 영역에 특화된 AI 에이전트 '에이전트포스'를 지난해 하반기부터 적극 확대하고 있다.
중국의 딥시크 모델은 상대적으로 높은 환각률을 기록했다. 딥시크의 거대언어모델(LLM)인 딥시크 v2.5가 환각률 2.4%를 나타냈고 추론에 특화한 딥시크 r1은 이보다 높은 14.3%를 보였다. 벡타라 연구진은 딥시크의 결과에 대해 "보다 정밀하게 모델을 훈련시켰다면 적어도 이러한 수준의 성능 저하는 피할 수 있었을 것"이라고 분석했다.
[정호준 기자]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]