
어떤 것이 종속되지 않는 것인가? 기술 논문들은 대부분 기술과 소스 코드를 공개한다. 이런 소스 코드를 이용하고 변형하는 것에 대해 종속이라 하지 않는다.
거대언어모델(LLM) 오픈 소스라고 해서 모든 코드가 공개되지는 않는다. 대부분 파라미터(가중치) 세트와 파인튜닝(미세조정) 학습 코드로 제한된다. 라마(메타), 딥시크, 큐웬(알리바바)이 모두 그렇다. 핵심 기술인 사전학습 코드와 훈련 데이터는 공개하지 않는다.
사전학습과 파인튜닝은 동일한 모델 아키텍처를 대상으로 한다. 가중치 조정을 하는 훈련 대상은 동일하지만 사전학습은 기업 고유의 거대 인프라에 특화된 코드가 포함된다. 핵심 기술로 공개되지 않는다. 공개해도 인프라가 달라 재현되기 힘들다. 초거대 데이터 파이프라인과 관련된 코드도 비공개다. 학습용 데이터도 비공개인데, 공개했다간 어떤 소송에 휘말릴지 모른다. 파인튜닝은 소형 데이터 세트를 사용하므로 인프라와 거대 데이터에 특화된 복잡한 코드는 필요 없다.
그러니 공개 소스의 라이선스라는 것은 대개 파라미터 세트와 파인튜닝용 소스 코드에 관한 것이다. 어차피 대부분 기업은 사전학습을 할 수도 없으니 이 정도만으로도 충분히 유용하다. 라이선스의 세부 사항은 각각이다. 딥시크가 채택한 MIT 라이선스는 가능성은 희박하지만 소스에 특허 관련 분쟁이 생기면 사용자가 해결해야 한다. 큐웬이 채택한 아파치2.0 라이선스는 특허가 있더라도 자유로운 사용을 보장한다. 상용화를 염두에 두고 있는 사용자로선 불안한 구석이 덜한 면이 있다.
일부 국내 기업들이 아파치2.0의 큐웬을 선택했다. 중국 소스라고 일부 반발 여론도 있었는데 코미디 같은 일이다. 정책을 바꿔 유료화하면 종속된다고 말하기도 하는데 그럴 수 없다. 아파치2.0 기반의 공개 소스는 잔뜩 개량했는데 차후에 라이선스 문제로 곤란해질 염려가 없다. 업그레이드 버전을 출시하면서 그것에 한해 유료화할 수는 있지만 이전 버전에 소급할 수는 없다.
월간활성이용자수(MAU) 조항도 눈여겨봐둬야 한다. 대표 버전 기준으로 큐웬은 1억명, 라마는 7억명 제한이 있다. 아주 큰 규모의 서비스를 할 계획이 있으면 독소 조항이 될 수도 있다. 대부분 기업에선 문제가 되지 않는다.
소스가 어디서 왔건 무슨 상관인가. 개량 모델을 만드는 입장에서는 수준이 괜찮고 라이선스가 사정에 맞으면 된다. 개량이 충분히 진행되면 원본의 흔적은 흐려진다. 소버린 AI를 주장하는 입장에서도 무조건 외산 소스는 종속이라는 주장을 할 필요가 없다. 판을 키울 수는 있겠지만 필요 이상의 국수주의는 속도 있는 저변 확대를 방해한다. 가장 난도 높은 사전학습과 데이터 파이프라인에 도전하는 그룹도 몇 개 정도는 지원해야 할 것이다. 실패하더라도 그런 일을 해봐야 획득 가능한 노하우가 있다.
대표적 그래픽처리장치(GPU)인 H100 1만장의 전력 사용량은 우리나라 인구 5만명 도시와 맞먹는다. 지금으로는 GPU를 수십만 장 들여와도 전력 문제로 설치가 불가능할 것이다. 원전을 비롯한 전력과 전력망 확충부터 서둘러야 할 때다. 필자는 작년 서울대에서 H100 8장을 위한 전력 공간을 확보하는 데도 큰 어려움을 겪었다. 이런 것을 포함한 학내의 하드·소프트 인프라를 총괄하고 규합할 컴퓨팅 대학 설립이 대학본부 차원에서 논의되고 있으나 학내 조정이 난항을 겪는 모양이다.
[문병로 서울대 컴퓨터공학부 교수]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]