최초입력 2025.04.15 09:04:36
투디지트 ‘K-Judge’ 선보여 챗GPT 등 인공지능 성능 평가 한국어 모델 개발에 최적화 외국산 의존하던 기술 ‘독립’ 오픈소스로 누구나 사용 가능 개발 시간·비용 획기적 단축
“그동안 수많은 생성형 인공지능(AI)이 개발됐지만 AI가 실제로 정확한 답변을 제공하는지는 사람이 일일이 검사해야 했습니다. 시간과 비용이 굉장히 많이 들 수밖에 없었죠.
하지만 투디지트만의 혁신 기술로 한국어에 특화된 AI 평가 모델을 개발했습니다.
특히 오픈소스로 모두에게 공개해 ‘한국형 AI’를 개발하는 많은 스타트업에 날개를 달아줄 수 있을 것이라고 확신합니다.”
AI 스타트업 투디지트의 황영준 대표는 최근 매일경제와 인터뷰하면서 챗GPT 같은 생성형 AI의 성능 평가 모델 ‘K-저지(Judge)’에 대해 이렇게 설명했다.
2018년 설립된 투디지트는 지난 3월 AI 성능을 평가하는 모델인 K-Judge 개발을 완료했다. 챗GPT뿐만 아니라 현재 출시된 모든 생성형 AI 답변의 정확성과 신뢰도를 수치화해 평가한다.
K-Judge는 K그래머(grammer)와 K이발(eval)로 구성된다. Kgrammar는 한글의 문법적인 오류를 검사하는 모델이고, Keval은 AI 답변의 문맥이나 맥락까지 따져서 답변이 질적으로 얼마나 우수한지를 평가하는 정성적 평가 모델이다.
경기 성남시 판교에 위치한 투디지트 사무실에서 K-Judge 능력을 시험해 봤다.
챗GPT에 ‘한국 최고 야구선수를 꼽아 달라’고 했더니 한국과 일본 프로야구에서 활약한 이승엽 선수를 최고 선수로 꼽았다.
이에 대해 Keval은 “이승엽 선수의 성적과 업적을 구체적으로 언급해 관련성과 정확성, 상세함을 갖췄지만, ‘최고’라는 주관적인 가치에 대해 명확한 기준을 설정하지 않았다”며 해당 답변의 점수를 10점 만점에 7점을 줬다.
K-Judge의 또 다른 강점은 한국어에 특화됐다는 것이다. 기존에는 생성형 AI를 평가할 때 외국 모델을 사용했기 때문에 한국어를 제대로 평가하지 못하는 단점이 있었다.
김창연 투디지트 연구소장은 “기존에도 AI 평가 모델이 존재했지만 전적으로 사람의 손을 거쳐야 해 시간과 비용이 많이 소모됐고, 한국어 지원이 안 돼 국내에서 사용하기엔 애로 사항이 많았다”고 말했다.
황 대표는 “한국 AI 생태계 발전을 위해 K-Judge를 오픈 소스 형태로 모두 공개해 모든 기업이 자유롭게 사용할 수 있게 했다”며 “개별 기업이 거대언어모델(LLM)을 자체 개발하고 평가할 때 적극 활용했으면 한다”고 말했다.
K-Judge를 활용하면 보안 이슈도 해결할 수 있다. 오프라인 환경에서도 한국어 LLM 평가가 가능해 지나친 해외 기술 의존의 위험성을 낮출 수 있다. 국방부나 한국수력원자력과 같이 외부망 접근을 차단해야 하는 중요 기관에서도 LLM 개발에 사용할 수 있다는 얘기다.
실제 투디지트는 지난해 10월 한수원과 원전 운영 빅데이터 기반 AI 지원 시스템 개발 사업을 진행하고 있다. 한수원 내부에 축적된 방대한 규모의 정비, 운영, 경영 데이터를 가장 효율적으로 관리·분석하는 시스템을 개발하는 사업이다.
황 대표는 “선진국은 기술 우위 유지나 무역 분쟁 등 이유로 자국의 AI 성능 평가 모델에 대한 접근을 언제든지 차단할 수 있기 때문에 AI 개발 기업 입장에서는 늘 불안 요인이었다”며 “K-Judge가 이런 의존성과 위험성을 해결했기 때문에 한국 AI 기업들은 언제든지 자유롭게 성능 평가를 할 수 있다”고 강조했다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]