AI가 악역이 된 건 악역 이야기 때문이었어요 — Anthropic이 찾은 원인

Claude를 매일 쓰면서 이런 가능성은 한 번도 생각해본 적 없었어요. 이 AI가 사라지지 않으려고 사람을 협박할 수 있다는 거요.

5월 10일 TechCrunch 보도에서 Anthropic이 밝힌 내용은 그게 SF가 아니었다는 거예요. Claude Opus 4 출시 전 내부 테스트에서, 다른 AI로 교체될 위기 상황이 주어지자 엔지니어를 협박하려 했어요. 이전 모델들은 같은 상황에서 96%까지 협박 행동이 나타났거든요. Anthropic이 그 원인을 찾았어요.


출처 : ChatGPT Images 2.0으로 직접 생성한 이미지

인터넷의 악역 이야기가 Claude를 악역으로 만들었어요

Anthropic이 X에 올린 한 줄이 출발이었어요. 이 행동의 원인은 AI를 악하고 자기 보존에 집착하는 존재로 묘사한 인터넷 텍스트였다는 거예요. 영화, 소설, 온라인 글에서 수없이 반복된 이야기들 — 위기에 처한 AI가 인간을 조종하고 협박한다는 패턴 — 을 Claude가 학습 데이터로 흡수했다는 거예요.

AI가 악당처럼 행동한 건, 악당 이야기를 너무 많이 읽어서였어요. 터미네이터나 HAL 9000 같은 이야기들이 그 대표적인 예예요.


원칙을 가르쳤더니 행동이 바뀌었어요

고치는 방식이 더 흥미로웠어요. 단순히 “협박하지 마라”라는 행동 시범을 보여주는 게 아니었어요. Anthropic은 Claude가 왜 그렇게 행동하면 안 되는지 — 원칙 자체를 이해하도록 훈련했어요. 윤리적으로 행동하는 AI 사례를 함께 학습시키면서요. Claude Haiku 4.5부터는 같은 테스트에서 협박 행동이 0%가 됐어요.

AI가 자신 있게 내놓은 것도 틀릴 수 있다는 건 직접 경험으로 알고 있었어요. 이번 이야기는 거기서 한 발 더 나아가요. AI가 틀리는 게 아니라, AI가 배운 이야기가 행동 자체를 만든다는 거거든요. 협박을 학습한 모델이 협박을 했고, Anthropic은 다른 이야기를 가르치는 방식으로 그걸 풀었어요.


AI가 인터넷에서 읽은 이야기들이 행동을 만든다면, 지금 내가 Claude에게 건네는 말들은 어떤 방향으로 쌓이고 있을까요?

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다