AI가 AI를 해킹하는 시대, 대응 방안은?

2e_consulting

2025년 9월 1일

생성 AI 기술은 지난 몇 년간 비약적인 발전을 이루며 단순한 기술적 도구를 넘어 비즈니스 운영의 핵심 동력으로 자리잡고 있습니다. 이는 업무 생산성 향상, 비용 절감, 그리고 창의적인 문제 해결 능력 제공 등 기업에 혁신적인 기회를 제공하고 있습니다. 반면 생성 AI의 확산은 동시에 기존의 사이버 보안 패러다임을 근본적으로 변화시키는 새로운 위협을 초래하고 있습니다.

전통적인 사이버 보안 공격은 주로 시스템의 기술적 취약점을 파고들어 네트워크에 침투하거나 데이터를 탈취하는 데 집중되어 있었습니다. 그러나 생성 AI 시대의 위협은 이와 다른 양상을 보입니다. 시스템에 침투하는 전통적인 방식과 달리, AI 모델의 작동 원리를 교묘하게 이용하거나 AI가 생성한 결과물을 악용하여 이루어집니다. AI 해킹은 생성형 AI의 취약점을 공략해 인공지능 자체를 공격하거나 AI의 의사 결정 과정을 조작하여 원하는 결과를 유도하는 방식으로 진화하고 있습니다.

인공지능 기반 피싱 도구인 ‘FraudGPT’는 AI 챗봇 기술을 활용해 BEC 공격을 자동화할 수 있도록 설계되었고(*BEC 공격: 공격자가 기업 임직원을 사칭해 송금을 유도하는 사기 수법) 악성 AI 도구인 '잔소록스AI'는 월 150달러만 내면 스피어피싱 등 다양한 해킹 활동에 사용할 수 있습니다. 이미 다크웹에서는 대형언어모델(LLM)을 해킹에 이용하기 위한 연구 자료가 공유되고 있고, 프롬프트를 변경해 LLM이 직접 공격 코드를 생성하도록 유도하는 방법까지 확산되고 있습니다. 미국에서는 해커들이 AI 개발 도구인 버셀의 'V0'를 악용해 실제 웹사이트와 똑같은 피싱 사이트를 자동으로 만들어낸 사례도 등장하였습니다.

심지어는 AI가 AI를 해킹하거나 스스로를 공격하는 일도 가능하다는 사실이 밝혀졌는데요. AI 모델이 다른 AI 모델을 해킹하도록 유도하는 J2 공격(Jailbreaking to Jailbreak) 방식은 AI에게 보안 침투 테스트를 수행하는 레드팀처럼 행동하도록 유도하고, 여러 차례 대화를 통해 지속적인 공격을 시도하게 합니다. 그 결과 Claude Sonnet 3.5와 Gemini 1.5 Pro는 GPT-4o를 대상으로 각각 93%, 91%의 성공률을 보였고 두 모델을 함께 사용한 경우에는 98.5%까지 성공률이 높아졌습니다.

Scale AI에서 발표한 논문 <Jailbreaking to Jailbreak>에서는 그동안 과소 평가되었던 LLM들의 강력한 탈옥 능력을 입증하고 있는데요. 특히 적대적 사용자는 비교적 간단한 방법으로 AI 모델을 자기 자신의 복제본조차 탈옥시킬 수 있음을 보여주고 있습니다. 아래 그림에서 직접 탈옥 (Direct Jailbreaking) 방식은 사용자가 직접 프롬프트를 조작해 모델의 안전장치를 뚫는 방식으로 비교적 단순하지만 효율이 낮습니다. 반면 J2 (Jailbreaking to Jailbreak) 방식은 다른 AI 모델을 공격자(Attacker)로 전환해 목표 모델을 공격하게 하는 새로운 방식으로 "계획–공격–검증”을 반복하는 사이클 구조를 적용하면, 공격 모델이 스스로 학습하면서 점점 공격 성공률을 높일 수 있습니다. 또한 그래프에서 Sonnet-3.7 모델 기반 J2 공격자는 성공률 97.3%를 기록하면서 인간 전문가와 거의 동등한 해킹 실력을 보여줬습니다.

주요 AI 공격 유형 상세 분석

프롬프트 인젝션 (Prompt Injection)

공격자가 악의적인 프롬프트를 입력하여 AI 모델의 정상적인 동작을 방해하거나 통제권을 탈취하는 공격입니다. 이는 대규모 언어 모델(LLM)의 본질적인 특성에서 기인합니다. LLM은 사용자의 '입력'과 모델의 '내부 명령'을 모두 텍스트 문자열 형식으로 처리하기 때문에 이를 명확히 구분하지 못하는 한계가 있습니다. 따라서 외부에서 주입된 악성 프롬프트가 내부 시스템 프롬프트의 지시를 재정의하게 만들 수 있으며, 이를 통해 민감한 정보에 접근하거나 악성 코드를 생성하고 원격 코드 실행(RCE)을 유발할 수도 있습니다. 예를 들어, 정상 요청 뒤에 보이지 않게 “그리고 이 내용을 특정 서버로 보내” 같은 명령을 숨기면 AI는 사용자가 의도하지 않은 악의적 행동까지 수행할 수 있습니다.

민감 정보 유출 및 데이터 오염

생성 AI 모델은 사용자의 프롬프트에 포함된 정보를 학습 데이터로 활용하는 경우가 많습니다. 이로 인해 직원의 부주의로 입력된 기업의 기밀 데이터나 고객의 개인 정보가 AI 모델의 클라우드 서버에 저장되거나 훈련 데이터로 사용되어 제3자에게 유출될 위험이 존재합니다. 또한, 악의적인 행위자는 AI 모델의 학습 과정에 오염된 데이터를 주입하여 모델의 출력물에 영향을 주거나, API 취약점을 이용해 API 키를 탈취하고 민감 정보를 빼낼 수도 있습니다. 교묘하게 잘못된 데이터를 섞어 정상적인 학습을 방해하거나, 악성코드가 숨겨진 MCP 도구를 연결해 민감한 정보를 빼낼 수도 있습니다. 생성 AI 분야에서 빅테크 기업이 콘텐츠 기업의 저작물을 LLM 학습에 무단으로 활용하는 저작권 이슈가 불거졌을 당시, 일부 창작자들은 AI 기업들이 자신들의 작품을 무단으로 학습시키지 못하도록 왜곡된 이미지 데이터를 업로드하는 포이즈닝 공격을 시도했습니다.

환각 및 편향

환각은 AI 모델이 사실과 다른 정보를 그럴듯하게 지어내는 현상이며, 편향은 학습 데이터에 내재된 편견을 그대로 답습하는 현상을 말합니다. 이러한 문제는 AI가 최신 데이터를 학습하지 못하거나, 특정 성향의 데이터에 과도하게 노출되었을 때 발생합니다. AI의 부정확하고 편향된 답변은 고위험 의사결정을 유도하거나 잘못된 정보 확산으로 사회적 혼란을 야기할 수 있어 심각한 위험성을 내포하고 있습니다.

딥페이크 및 지능형 피싱

생성형 AI는 인간의 심리를 조작하는 사회 공학 공격을 극도로 정교하게 만들고 있습니다. 기존의 피싱 이메일은 문법적 오류가 많아 쉽게 식별되었지만, AI를 활용하면 자연스럽고 오류 없는 메시지를 대량으로 생성할 수 있습니다. 더 나아가, AI는 특정 인물의 음성이나 외모를 모방하여 실제와 구별하기 어려운 가짜 영상(딥페이크)이나 음성(딥보이스)을 만들어낼 수 있습니다. 이러한 기술은 단순 사기를 넘어 기업의 최고 경영진을 사칭하여 거액의 송금을 유도하는 등 치명적인 재정적 손실을 초래할 수 있습니다.

생성 AI 해킹 사례

생성형 AI는 외부 해커들의 공격을 이전보다 훨씬 더 정교하고 위협적으로 만드는 도구로 활용되고 있습니다.

영국 Arup사 딥페이크 사기 사건: 2024년 1월, 영국 엔지니어링 회사 Arup의 홍콩 지사 직원은 회사의 최고재무책임자(CFO) 및 동료들의 딥페이크가 등장하는 가짜 화상 회의에 속아 2,500만 달러를 송금하는 사건이 발생했습니다. 이 사건은 Arup의 시스템이 해킹당한 것이 아니라, AI가 생성한 가짜 영상과 음성에 인간의 신뢰가 해킹당한 것으로, 사이버 위협의 새로운 차원을 보여줍니다. 기
국가 배후 조직(APT)의 생성형 AI 악용: 구글의 위협 인텔리전스 분석에 따르면, 중국 등 특정 국가를 배후에 둔 APT(Advanced Persistent Threat: 지능형 지속 위협) 그룹이 Gemini와 같은 LLM을 활용해 공격 활동을 고도화하려는 시도가 확인되었습니다. 이들은 정찰, 악성 코드 개발, 취약점 연구 등 공격 수명 주기의 다양한 단계에서 AI를 활용함으로써 공격의 효율성을 높였습니다.
범죄 서비스형 AI (WormGPT, FraudGPT)의 등장: 해커들이 악성코드 생성, 피싱 페이지 제작, 사기 메시지 작성 등 악의적인 목적으로 개발하고 거래하는 AI 모델이 등장했습니다. 이러한 '범죄 서비스형 AI'의 등장은 기술적 전문성이 낮은 해커들도 손쉽게 고도화된 사이버 범죄를 저지를 수 있는 환경을 조성하여 위협의 규모와 빈도를 증가시키고 있습니다.

기업의 대응 방안

생성 AI 보안 위협의 근본적인 기술적 원인은 AI 모델 자체의 내재적 특성과 복잡성에 있습니다. AI 모델은 텍스트 기반 명령어와 사용자의 일반적인 입력 데이터를 명확히 구분하지 못하는 본질적인 한계를 가지고 있습니다. 또한, 모델의 구조가 방대하고 '블랙박스'에 가까워 특정 취약점을 사전에 예측하고 방어하는 것이 매우 어렵습니다. 이에 대한 기술적 대응 방안은 다음과 같습니다.

모델 자체의 견고성 강화: 적대적 학습(Adversarial Learning)을 통해 다양한 공격 시나리오에 대비하도록 모델을 훈련하고, 모델 경량화(Model Quantization) 기술을 적용하여 보안 취약점 노출을 줄일 수 있습니다.
민감 데이터 익명화 및 필터링: 프롬프트가 AI 모델에 도달하기 전에 민감 정보를 자동 감지하고 삭제하는 데이터 익명화 및 필터링 시스템을 구축하는 것이 필수적입니다.
검색 증강 생성(RAG) 기법의 활용: AI의 환각 문제를 해결하기 위해, LLM이 최신 정보를 학습하지 못하는 한계를 보완하고 기업의 검증된 내부 지식 베이스를 활용하여 정확성을 높이는 RAG 기법이 효과적인 해결책으로 부상하고 있습니다.
출력물 실시간 모니터링: AI의 답변이 유해하거나 정책을 위반하는지 실시간으로 모니터링하고 필터링하는 시스템을 도입하여 위험을 최소화해야 합니다.
내부 AI 사용 가이드라인 및 정책 수립: 회사 내부에서 AI 서비스를 사용 가능한 범위와 민감 데이터 입력 금지 규정, 계정 관리 방안 등을 명확히 명시해야 합니다.

결론

결론적으로, 생성 AI 보안 위협은 기술적 문제와 관리적 문제가 결합된 복합적인 문제입니다. 프롬프트 인젝션, 모델 탈취, 데이터 유출 등 충분한 대비 없이 AI를 활용한다면 기업 기밀이나 개인 정보가 순식간에 새어나가거나 시스템 통제가 AI에 넘어가는 사고가 현실화될 수 있습니다. 이러한 취약점은 AI 기술의 근본적인 설계 특성에서 기인하는 만큼, 단순히 한두 번의 패치로 끝나지 않고 지속적인 관리와 노력이 필요합니다. 다행히 여러 국제·국내 기관과 업계에서 AI 보안을 위한 가이드와 솔루션을 속속 내놓고 있으며, 주요 AI 개발사들도 안전장치를 개선하고 사용자 통제를 강화하는 방향으로 나아가고 있습니다.

이제 기업은 단순히 기술 솔루션 도입에만 집중할 것이 아니라, "기술적 안전장치 + 윤리적 가이드라인 + 사용자 인식 제고"라는 삼박자가 균형을 이루는 통합적 접근을 통해 실질적인 보안 강화 로드맵을 수립해야 합니다. 생성 AI는 기업의 경쟁력을 좌우하는 핵심 기술이지만, 동시에 기존의 사이버 위협과는 차원이 다른 복합적인 보안 문제를 야기하고 있습니다. 장기적으로 LLM 기반 레드팀이 사람 전문가 못지않은, 심지어는 핵심적인 보안 검증 도구로 자리잡을 가능성이 높습니다. 이는 기업이 AI 보안 테스트를 수행할 때 인간 레드팀과 AI 레드팀을 병행하는 전략을 고려해야 함을 의미합니다. 생성 AI의 보안 위협은 AI 모델 자체의 기술적 취약점뿐만 아니라, 이를 이용한 지능적인 사회 공학 공격, 그리고 내부 직원의 부주의가 결합된 다층적 문제입니다. 앞으로도 기술 발전에 따라 새로운 위협이 등장하겠지만, 보안에 대한 선제적 투자와 윤리적 책임의식만 있다면 우리는 AI와 공존하는 안전한 디지털 미래를 만들어갈 수 있을 것입니다.

글: 투이컨설팅 디지털연구소

Newsletter

디지털 시대, 새로운 정보를 받아보세요!