
필자에게 불과 3개월 전까지는 챗GPT가 유일하게 말이 통하는 거대언어모델(LLM)이었다. 전문적인 대화나 논리적으로 깊이 들어가는 대화에서 챗GPT 말고는 말귀를 알아듣는 LLM이 없었다. 챗GPT가 대학생이라면 제미나이는 중학생 정도의 느낌이었다. 2년 전부터 월 3만원으로 챗GPT를 구독해 오다 3개월 전부터 월 30만원짜리 챗GPT-프로로 업그레이드했다. 그야말로 신세계였다. 독보적이었다.
그즈음에 일론 머스크의 X에서 그록3라는 물건이 등장했다. 가격은 7배 싼데 전문적 대화의 품질은 챗GPT-프로와 비슷했다. 어떤 기술적 대화에서는 챗GPT를 능가하기도 했다. 챗GPT가 기계적인 느낌의 전문가라면 그록3는 좀 더 인간 사고의 매듭들을 잘 짚어내는 느낌이었다.
2개월쯤 뒤 구글이 제미나이2.5를 내놓았다. 기존에 챗GPT와 워낙 차이가 커 개선을 했다고는 하지만 크게 기대하지는 않았다. 확인을 해보고는 '경악'했다.
필자가 강의하는 컴퓨터 알고리즘 중간고사 문제 하나를 4개의 LLM에 풀게 해봤다. 알고리즘은 컴퓨터공학부 과목 중 수학적이고 체계적 사고를 가장 깊이 요구하는 과목 중 하나다. 오픈북으로 치른 시험이라 대부분의 문제가 내용의 핵심을 이해한 후 사고의 확장을 요구한다. 우리 학생들 평균이 51.1점인 꽤 어려운 문제였는데 클로드 15점, 챗GPT 41점, 그록 42점, 제미나이 74점을 받았다(모두 최상위 버전으로 테스트). 기말고사까지 더한 평균은 클로드 22.5점, 챗GPT 49.9점, 그록 51점, 제미나이 78점을 기록했다. 각각 수강 학생 93명 중 92등, 66등, 65등, 9등에 해당한다. 9등인 제미나이는 A+에 속한다. 필자가 구독하던 LLM 3개를 멀찌감치 따돌리고 대부분의 서울대 학생을 이긴다. 도대체 구글에서 무슨 일이 있었던 것인가. 제미나이를 4번째 구독 LLM으로 추가했다.
몇 주 지나니 챗GPT의 새 버전 o3가 IQ 테스트에서 제미나이2.5를 이겼다는 소식이 들렸다. 앞의 알고리즘 문제로 확인해 보았다. 종합점수가 49.5점에서 63.5점으로, 순위가 66등에서 38등으로 올랐다. 그렇지만 78점으로 9등인 제미나이와는 아직 멀다. 벤치마크 테스트마다 나름의 관점이 있겠지만 필자에게는 재귀적 사고, 수학적 논리, 다단계 추론 등을 테스트하는 데 필자의 알고리즘 시험 문제만큼 만족한 수단이 없다.
최근 몇 달에 걸쳐 필자는 그록-프리미엄+와 제미나이를 새로 구독하고, 코딩을 위해 클로드3.7-소넷과 코딩 플랫폼인 커서(Cursor)는 유지했다. 챗GPT-프로는 10분의 1 가격인 챗GPT-플러스로 바꾸었다. 구독이 늘어났는데 총 비용은 3분의 1로 줄었다.
지난 수십 년간 컴퓨터 과학은 줄곧 다른 분야에 비해 변화가 심했다. 그렇지만 최근 몇 년간처럼 현기증 나는 속도의 변화를 경험한 적이 없다. 요즘은 1개월이 예전의 1년 같다.
올해만 해도 필자는 5월 중순인 현재까지 적어도 네 번 놀랐다. 딥시크, 그록3, MCP(필자의 지난 칼럼 주제), 제미나이2.5가 연이어 놀라움을 주었다. 제일 큰 놀라움은 가장 깊은 곳에서 차원의 도약을 보여준 제미나이2.5다. 필자의 세계에서는 당분간 구글 제미나이가 왕좌를 유지할 것 같다. 구글은 지난달 A2A라는 에이전트 협업 프로토콜을 발표했다. 최적화 인공지능(AI) 분야에서는 줄곧 독보적 1위였던 구글은 생성형 AI까지 석권하고 이제는 곧 폭발할 AI 에이전트 시대의 플랫폼으로 진화하려 한다.
AI 혁명 시대에 줄곧 선두에 있던 구글은 오픈AI가 챗GPT로 치고 나가면서 선두를 빼앗긴 듯한 2년을 보냈다. 지난달부터 시작된 구글의 움직임은 가히 왕의 귀환이라 할 만하다.
[문병로 서울대 컴퓨터공학부 교수]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]