인공지능(AI) 산업을 취재하다 보면 하루가 멀다 하고 등장하는 새로운 모델에 머리가 빙빙 돈다.
오픈AI의 'GPT', 구글의 '제미나이'나 중국 알리바바의 '큐원' 등 이름도 그 종류도 다양하다. 무엇이 더 뛰어난지, 새로 나온 모델이 이전 세대와 비교해 어떤 점이 달라진 건지 알아내는 건 더 큰 난관이다.
이럴 때 '벤치마크'라는 존재가 일종의 나침반 역할을 한다. 벤치마크는 마치 수능처럼 다양한 분야의 문제를 AI가 얼마나 정확하게 풀어내는지 정확도를 측정하는 시험이다.
AI 모델은 처음 세상에 나오면서 다양한 벤치마크 기록을 보여주며 지능을 자랑한다. "나 똑똑하다"라고 말하는 것보다 "수능 전 과목 1등급 받았다"고 내세우는 쪽이 설득력이 있지 않은가.
그런데 언제부턴가 AI 벤치마크, 믿기가 어려워졌다. 경쟁이 과열되면서 기업들이 무리하게 성능을 부풀리거나 수치를 조작하는 사례가 발생하고 있기 때문이다.
"A 테스트에서 50점 받았다"라고 홍보했는데 막상 20점 수준인 경우도 나왔다. 신입사원이 토익 900점을 받았다고 해서 뽑았더니 실제 실력은 600점 수준이라고 가정해보자. 명백한 취업 사기다.
문득 대선을 앞두고 여러 후보의 공약을 보면서, 그 공약들이 저 믿기 어려운 AI 벤치마크들을 떠올리게 했다. 심지어 벤치마크 결과는 한 차례 테스트를 거친 것이지만 선거 공약은 그렇지도 않다.
짧은 검증 기간 탓에 정책의 구체성이 떨어진다는 점을 감안해도 '과연 이게 가능할까' 싶은 약속들이 적지 않다. 양당 모두 강조하는 정책이지만 많은 이들이 지적하듯 재원 확보 방안이 누락된 'AI 100조원 투자'가 대표적일 것이다.
후보들이 임기 중에 달성하겠다고 내건 말들과 숫자들이 혹시 잘못된 벤치마크 점수처럼 한껏 부풀려져 있는 것은 아닐까.
AI 모델이라면 직접 써보고 실제 성능이 벤치마크와 차이가 날 경우 다른 모델로 손쉽게 바꾸면 된다. 국가의 수장은 그렇게 교체할 수 없다는 것을 우리는 모두 안다.
이제는 현역이 아니지만 거주하는 지역구의 이전 국회의원이 가끔 생각날 때가 있다. 직접 투표한 사람도 아니어서 큰 관심도 없었다.
그 국회의원은 여느 의원들처럼 지역 곳곳에 플래카드를 걸고 본인 성과를 홍보했다. 처음에는 다 자랑일 뿐이고, 저 수많은 플래카드는 결국 쓰레기가 되겠구나 혀를 찼다. 하지만 출퇴근길에 종종 눈에 들어온 메시지는 의외로 눈에 띄었다.
그 몇 자에 담긴 그의 성과는 전혀 특별할 것이 없어 보였기 때문이다. '○○마을 ○단지 노후 시설 개선 공사 확정'이라던가, '○○근린공원 운동기구 예산 1000만원 확보' 같은 식이 대부분이었다.
거창하지 않아도 일단 무언가라도 행동하고 이뤄냈다는 게 나름 인상적으로 다가왔던 듯하다. 일단 던지고 보는 지하철역 유치나 재개발 같은 공약보다는 현실적이지 않은가.
AI가 국가적 차원의 관심과 지원이 필수적 영역인 것은 맞다. 다만 '중요하니 100조원 투입'보다는, 그보다 훨씬 적은 규모라도 현실적인 재원 마련 방안과 구체적인 계획을 제시하는 것이 먼저가 아닐까.
과장과 허풍보다 담백한 정치, 작아 보이더라도 확실한 변화가 만들어지는 시대를 기대해본다.
[정호준 디지털테크부 기자]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]