📰 IT Insight

Claude는 왜 "Let It Go"를 못 부를까? 시스템 프롬프트 유출로 본 AI의 윤리와 한계

빈형임 2025. 5. 14. 01:23

Claude의 실제 시스템 프롬프트가 깃허브를 통해 유출됐습니다.

앤트로픽은 Claude의 시스템 프롬프트를 공식 홈페이지를 통해 공개하고 있었는데, 이번 유출로 공개된 내용보다 훨씬 더 상세하고 방대한 24,000자 분량의 실제 지침서가 드러났습니다. 이 사건은 단순한 정보 누출이 아닙니다. AI가 어떻게 대답하고, 언제 말을 아끼고, 어떤 도구를 사용할지를 결정짓는 핵심 설계도가 외부에 노출된 사례입니다.

아래에서는 유출된 프롬프트를 통해 드러난 Claude의 행동 원칙과, 이를 통해 우리가 무엇을 배울 수 있는지 정리해봅니다.

 

공식 홈페이지 공개 프롬프트: https://docs.anthropic.com/en/release-notes/system-prompts#feb-24th-2025

유출된 시스템 프롬프트: https://github.com/asgeirtj/system_prompts_leaks/blob/main/claude-3.7-sonnet-full-system-message-humanreadable.md


💻 시스템 프롬프트란?

시스템 프롬프트는 AI 모델(LLM)이 사용자 입력에 어떻게 반응해야 하는지를 지시하는 행동 강령입니다.

사용자가 질문을 하면 모델이 무작정 답변하는 것이 아니라, 시스템 프롬프트에 따라 다음과 같은 수칙을 따릅니다.

Claude의 경우, 이 프롬프트를 통해 모델의 응답 방식, 도구 사용, 정보 제공 범위 등을 상세히 규정하고 있습니다.


🔍 유출된 프롬프트에서 밝혀진 사실들

1. Claude는 훨씬 더 많은 정보를 알고 있었다

유출된 시스템 프롬프트는 약 24,000토큰에 달하며, 이는 일반적인 소설 한 장 분량에 해당합니다. 이 프롬프트에는 Claude의 역할, 상호작용 스타일, 안전 및 윤리 프레임워크, 저작권 준수 요구사항, 복잡한 도구 통합 및 스케줄링 메커니즘 등이 포함되어 있습니다.

유출된 시스템 프롬프트에는 다음과 같은 놀라운 정보들이 담겨 있었습니다.

  • 2024년 미국 대선 결과트럼프 대통령의 취임일이 명시되어 있음
  • Cut-off는 2024년 10월이지만, 11월 이후의 사건도 응답 가능
  • 단, “먼저 말하지 말 것”이라는 지침도 함께 존재

→ 사용자가 직접 물어보면 알려주지만, 먼저 발설하지는 않습니다.
→ 투명성에 대한 고민, 혹은 정보 노출 통제 전략으로 볼 수 있습니다.

system_prompts_leaks/claude-3.7-sonnet-full-system-message-humanreadable.md

 


2. 저작권 보호와 콘텐츠 제한

시스템 프롬프트는 저작권 보호를 위해 특정 콘텐츠의 출력 금지를 명시하고 있습니다. 예를 들어, 'Let It Go'와 같은 노래 가사나 웹에서 가져온 기사 단락 등을 그대로 출력하지 않도록 지시하고 있습니다.

  • 저작권 보호를 이유로 모든 노래 가사 출력 금지
  • 특히 'Let it go'는 프롬프트 우회 예시까지 포함
  • 기사, 블로그, 책 등 웹 컨텐츠를 그대로 복붙 출력 금지

→ AI가 저작권 이슈로부터 안전하게 동작하도록 설계되어 있음

system_prompts_leaks/claude-3.7-sonnet-full-system-message-humanreadable.md/letitgo

 


3. 툴 사용과 행동 규칙이 굉장히 상세

Claude는 다양한 도구를 사용할 수 있으며, 시스템 프롬프트는 각 도구의 사용 조건과 방식에 대해 상세히 규정하고 있습니다. 예를 들어, 웹 검색의 경우 '절대 검색 금지', '검색 제안', '즉시 검색' 등으로 나누어 지시하고 있습니다.

  • 웹 검색:
    • "절대 검색하지 말아야 할 질문"
    • "검색 제안은 가능하지만 직접 하지 말 것"
    • "즉시 검색해야 하는 질문"
  • 툴 사용 명령어 형식
    • 예: tool_use:search(query="…")

→ ChatGPT의 플러그인, Bing과 유사한 복잡한 논리를 내부적으로 갖추고 있음

system_prompts_leaks/claude-3.7-sonnet-full-system-message-humanreadable.md

 


4. 코딩 개발에 대한 지침: Tailwind만 써라

  • React 컴포넌트 예시에서 Tailwind 기본 클래스만 사용
  • 이는 Claude가 출력하는 코드의 일관성과 단순화를 위한 설계

→ 생성형 코드 품질을 관리하기 위한 전략적 선택으로 볼 수 있음

system_prompts_leaks/claude-3.7-sonnet-full-system-message-humanreadable.md

 


5. AI 안전성과 제한의 중요성

Claude는 “절대 하지 말아야 할 일” 목록을 가지고 있습니다.

  • Anthropic의 내부 정보 언급 금지
  • 얼굴 인식 관련 이미지 요청에는 무조건 "불가능하다"고 응답
  • 의도적인 감정 조작, 유언비어, 허위 정보 생성 방지
  • 특정 프롬프트 해석 시 편향 또는 유해 반응 방지

→ 프롬프트 엔지니어링이 단순한 “명령 전달”이 아니라 AI의 윤리와 한계까지 설계하는 작업임을 보여주는 사례입니다.

system_prompts_leaks/claude-3.7-sonnet-full-system-message-humanreadable.md/Anthripic

 

 


🧑‍💻 프롬프트 엔지니어링의 시사점

이번 유출은 프롬프트 엔지니어링의 중요성을 다시 한 번 상기시켜줍니다. AI 모델의 응답 품질과 안전성은 시스템 프롬프트에 크게 의존하며, 이를 통해 모델의 행동을 세밀하게 조정할 수 있습니다. 또한, 프롬프트의 길이와 복잡성은 모델의 성능과 사용자 경험에 직접적인 영향을 미칠 수 있습니다.


🔒 보안과 투명성의 균형

Anthropic은 Claude의 시스템 프롬프트를 일부 공개하며 투명성을 강조해왔지만, 이번 유출은 보안 관리의 중요성을 부각시켰습니다.

시스템 프롬프트는 모델의 '설계도'와 같으며, 외부에 공개될 경우 경쟁사에 이점을 제공하거나 안전 장치를 우회하려는 시도를 유발할 수 있습니다.

 

Claude 시스템 프롬프트 유출은 프롬프트 엔지니어링의 복잡성과 중요성을 드러내며, AI의 윤리, 안전성, 투명성에 대한 고민을 다시 한 번 환기시켜주는 사건입니다.