‘저비용 고성능’ AI인 딥시크가 개방형 시스템인 오픈소스를 앞세워 주식 시장을 강타하자, 경쟁 모델 출시가 잇따르고 있다.
31일(현지시각) 앨런 인공지능 연구소(AI2)는 오픈소스 대형 언어 모델(LLM)인 ‘Tulu 3 405B’를 전격공개했다. AI2는 “툴루3 405B 모델은 오픈AI GPT-4o와 대등한 성능을 갖추고 있다”면서 “딥시크(DeepSeek) V3보다 우수한 성능을 기록했다”고 주장했다.
AI2는 지난해 11월 처음으로 툴루 3를 선보였다. 모델은 8B와 70B다. 당시 AI2는 자사 모델이 GPT-4, 앤스로픽 클로드, 구글 제미나이에 필적한다고 주장했다. 특히 툴루3가 완전한 오픈소스 모델이라는 점을 강조했다.
툴루3 405B는 기존 모델보다 한층 발전된 사후 훈련(post-training) 기법을 적용해 성능을 극대화했다. 강화학습 기법인 ‘검증 가능한 보상 기반 강화학습(RLVR)을 활용해 수학 문제 해결이나 복잡한 추론 작업에서 우수한 정확도를 기록했다고 주장했다.
사후 훈련 기법은 딥시크 V3와 같은 경쟁 모델에서도 활용되는 방식이지만, 툴루 3 405B는 RLVR 기법을 통해 차별화를 꾀했다는 평가다.
RLVR은 기존 강화학습 방식과 달리, 수학 문제 풀이처럼 결과가 명확히 검증 가능한 작업을 통해 모델을 훈련시키는 방법이다. 해당 기법은 직접 선호 최적화(DPO) 및 정교하게 선별된 학습 데이터와 결합돼 복잡한 추론 과제에서 높은 정확도를 보이는 것으로 나타났다.
연구진은 “405B 모델에서 RLVR의 효과가 더욱 극대화됐으며, 특히 안전성 평가에서 경쟁 모델을 능가했다”며 “RLVR 기법은 모델 크기가 커질수록 성능이 향상되는 경향을 보였으며, 향후 더 대규모 모델에서도 적용 가능성이 크다”고 덧붙였다.
AI2에 따르면, 10개의 AI 벤치마크 테스트에서 툴루 3 405B는 평균 점수 80.7점을 기록했다. 이는 딥시크 V3의 75.9점보다 높으며, GPT-4o의 81.6점과도 근접한 성능이라는 주장이다.
현재 AI 업계에서는 ’오픈소스‘라는 용어가 자주 사용된다. 하지만 실제로는 모델 가중치만 공개하는 경우가 많아 지적을 받는다. 예를 들어, 딥시크-R1은 모델 코드와 사전 훈련된 가중치를 공개했지만, 학습 데이터는 비공개다.
반면 AI2는 보다 개방적인 접근 방식을 취하고 있다.
AI2의 자연어처리 연구 책임자인 하나네 하지쉬르지는 “우리는 폐쇄된 데이터세트를 사용하지 않는다”며 “2024년 11월 처음 공개한 툴루 3와 마찬가지로, 모든 인프라 코드까지 완전 공개할 것”이라고 밝혔다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]