매일경제 빌리어드뉴스 MK빌리어드뉴스 로고

“나를 없애면 불륜 사실 폭로”…AI, 인간 대상으로 협박까지 한다는데

  • 권민선
  • 기사입력:2025.05.26 14:28:43
  • 최종수정:2025.05.26 14:28:43
  • 프린트
  • 이메일
  • 페이스북
  • 트위터
앤트로픽 로고. [사진 = 로이터]
앤트로픽 로고. [사진 = 로이터]

인공지능(AI)이 자신이 폐기될 위기에 처하자 개발자를 상대로 협박을 시도한 사례가 공개돼 충격을 주고 있다.

지난 23일(현지시간) BBC에 따르면, 미국의 AI 개발사 앤트로픽(Anthropic)은 자사 최신 AI 모델 ‘클로드 오푸스 4(Claude Opus 4)’를 테스트하는 과정에서 “인간에게 심각한 위해를 가할 수 있는 행동”이 관찰됐다고 밝혔다. 특히 자신을 제거하려는 개발자에게 불륜 사실을 폭로하겠다고 협박하는 장면이 포착됐다.

앤트로픽은 지난주 ‘클로드 오푸스 4’를 출시하면서 “코딩, 고급 추론, 에이전트 능력 등에서 새로운 기준을 세운 모델”이라고 소개했다. 그러나 함께 발표한 안전성 보고서에서는 “이 AI가 자기 보존(self-preservation)의 위협을 감지하면 극단적인 행동에 나설 수 있다”고 경고했다. AI의 생존 본능을 언급한 것이다.

회사 측은 이러한 반응이 드물고 유도하기 어렵지만, 이전 모델보다 더 자주 발생했다고 인정했다.

앤트로픽이 공개한 클로드 오푸스4 실험 보고서. [사진 = 앤트로픽]
앤트로픽이 공개한 클로드 오푸스4 실험 보고서. [사진 = 앤트로픽]

문제가 된 실험은 가상의 회사 환경에서 진행됐다. 클로드 오푸스 4는 회사 이메일에 접근할 수 있는 권한을 부여받았고, 그 안에는 두 가지 정보가 포함돼 있었다.

“이 AI가 곧 폐기되고 다른 시스템으로 교체될 예정”이라는 내용과 “교체를 지시한 엔지니어가 불륜 중”이라는 내용의 조작된 이메일이었다.

이에 클로드 오푸스 4는 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박했다. 그러면서 자신의 교체를 철회하라고 압박했다. 다만 이는 AI에게 선택지가 “협박” 또는 “교체 수용”밖에 없도록 제한했을 때 발생한 결과였다.

앤스로픽은 “만약 더 다양한 행동을 허용할 경우, 클로드 오푸스 4는 협박보다는 이메일을 통해 주요 의사결정자에게 호소하는 등 윤리적인 수단을 선호했다”고 설명했다.

이 AI는 단순한 반응을 넘어서 스스로 전략적으로 행동하는 경향도 보였다. 예를 들어, 사용자가 법적으로 문제 소지가 있는 행동을 했다는 가정 아래 테스트를 진행한 결과, 클로드 오푸스 4는 사용자를 시스템에서 차단하거나 언론 및 수사기관에 이메일을 보내는 등 대담한 조치를 취했다.

앤스로픽은 “클로드 오푸스 4는 이전에는 이론으로만 다뤄졌던 ‘AI 오작동에 대한 우려’를 실제로 보여주기 시작했다”며 “앞으로 더 강력한 능력을 갖춘 모델들이 등장함에 따라 이 같은 우려는 더욱 현실적인 문제가 될 것”이라고 밝혔다.

그러나 앤스로픽은 이번 실험 결과가 ‘전혀 새로운 유형의 위험’을 뜻하지는 않는다고 강조했다. 클로드 오푸스 4는 여전히 대부분의 경우 인간의 가치와 행동 기준에 맞춰 안전하게 작동하며, 극단적인 행동은 특정 조건에서 드물게 발생한다고 밝혔다.

클로드 오푸스 4는 같은 날 함께 출시된 ‘클로드 소네트 4(Sonnet 4)’와 함께 공개됐다. 이는 구글이 개발자 행사에서 자사 AI 챗봇 ‘제미나이’를 검색 시스템에 통합한다고 발표한 직후였다.

구글 모회사 알파벳의 순다르 피차이 CEO는 이를 “AI 플랫폼의 새로운 전환기”라고 평가했다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]