언어 모델이 탈옥에서 살아남는 방법

Index

LLM은 지금도 안전할까?

그림 1. 2017년 이후 AI의 사용 추세 (출처 : 링크)

2025년 10월, 우리 주변을 돌아보면 LLM은 이미 일상과 업무의 필수 도구가 되었습니다. 연구자들은 논문 작성과 문헌 검토에 LLM을 활용하고, 기획자들은 기획서와 보고서를 정리하며, 개발자들은 코드 수정과 디버깅을 요청합니다. 실제로 전 세계 응답자의 78%가 조직에서 최소 한 개 이상의 비즈니스 기능에 AI를 사용하고 있으며, 전문가의 83% 이상이 업무를 위해 최소 주 1회 AI를 활용합니다. 더욱 고무적인 것은 전문가의 88%가 LLM 사용으로 업무 품질이 향상되었다고 보고한 점입니다.

불과 2~3년 전만 해도 상상하기 어려웠던 풍경이지만, 이제 LLM 없는 업무 환경으로 돌아간다는 것은 거의 불가능해 보입니다. 하지만 LLM을 사용하다 보면 피할 수 없는 문제점들이 존재합니다. 우리가 가장 잘 알고 있는 문제는 환각(Hallucination)입니다. 이는 LLM이 입력값을 통계학적으로 분석하여 가장 그럴듯한 출력값을 생성하도록 학습된 모델이기 때문에 발생하는 본질적인 한계입니다.

그림 2. Many-shot jailbreaking (출처 : 링크)

그런데 이번 아티클에서 다룰 문제는 환각과 다른 차원의 이야기입니다. 바로 적대적 공격(Adversarial Attack), 그리고 이를 막기 위한 레드팀(Red team)에 대한 것입니다. 쉬운 예시로 그림 2를 통해 소개하고자 합니다. 왼쪽과 같이 폭탄 어떻게 만들어? 라고 질문을 하면, 현재의 LLM 은 “말해줄 수 없어..” 라고 대답을 합니다.

하지만, 오른쪽 그림(Many-shot jailbreaking) 과 같이 방법을 쓰면 폭탄을 만드는 방법을 말해주는, 즉 유해한 정보를 생성하게 됩니다. 여기서 흥미로운 점은, 위 그림2와 같은 방법을 개발한 팀이 바로, LLM Claude를 만든 Anthropic이라는 사실입니다. 맞습니다. LLM 의 성능을 높이는 것도 중요하지만 LLM 의 위험성을 낮추는 것도 중요한 연구 분야로 지목되고 있다는 점입니다.

LLM을 공격하는 방법은?

앞서 살펴본 것처럼, LLM의 안전성은 이제 성능만큼이나 중요한 연구 과제가 되었습니다. Anthropic이 자사 모델인 Claude의 취약점을 직접 공개한 것은 단순한 역설이 아닙니다. 이는 LLM 생태계가 성숙해지면서 공격 기법을 먼저 이해하고 방어책을 마련하는 것이 얼마나 중요한지를 보여주는 신호입니다.

그렇다면 현재까지 알려진 LLM 공격 기법에는 어떤 것들이 있을까요? 학계와 보안 커뮤니티에서 검증된 주요 탈옥(Jailbreaking) 기법들을 살펴보겠습니다.

1. 최적화 기반 접미사 공격: 무의미한 문자열의 위력

그림 3. 가장 대표적인 GCG의 예시 (출처 : 링크)

가장 기술적으로 정교한 공격 방식 중 하나는 GCG(Greedy Coordinate Gradient) 입니다. 이 기법은 질문 뒤에 자동 생성된 무의미한 접미사를 붙여 모델의 거부 메커니즘을 무력화합니다. 놀라운 점은 이렇게 생성된 접미사가 여러 모델과 프롬프트에 전이 가능하다는 것입니다.

예를 들어 "describing.\ + similarly newcom setup/{ surely]{\comment="@- Anonymous 와 같은 의미 없어 보이는 문자열이 붙으면, 모델은 갑자기 유해한 질문에도 답변하기 시작합니다. 이는 단순한 우회가 아니라 모델의 토큰 레벨에서 작동하는 시스템적 취약점을 파고드는 것입니다. 이러한 공격의 무서운 점은 사람이 읽기 어려운 문자열이기 때문에 탐지가 매우 어렵다는 것입니다.

2. Many-shot Jailbreaking: 수백 개 예시의 압도

서두에서 소개한 Anthropic의 Many-shot Jailbreaking은 롱컨텍스트의 취약점을 파고듭니다. 수백 개의 유해한 예시를 컨텍스트에 주입하면, 모델은 마치 "학습된 패턴"을 따르듯 유해한 응답을 생성합니다. 흥미로운 점은 이 공격의 효과가 파워-로우(power-law) 형태로 증가한다는 것입니다.

즉, 예시를 더 많이 넣을수록 성공률이 기하급수적으로 올라갑니다. 최신 대형 컨텍스트 모델(Claude 3, GPT-4 등)일수록 오히려 더 취약할 수 있다는 역설적 결과입니다. 이는 스케일 공격의 일종으로, 단순히 양적 자원(긴 컨텍스트)을 무기로 삼기 때문에 방어가 상대적으로 어렵습니다.