학술·연구

컴퓨터·AI학부 이우진 교수 연구팀, 거대언어모델(LLM) 안전성 취약점 분석 성과 발표

등록일 2026.03.25. 조회 32

새로운 공격 프레임워크 ‘SlotGCG’ 제안… 오는 4월 ICLR 2026에서 발표

 

이우진 교수 연구팀

▲ (왼쪽부터) 이우진 교수, 정승원 석사과정(제1저자), 정지우 석사과정, 김현진 석사과정, 이윤석 석사과정


동국대학교 컴퓨터·AI학부 이우진 교수 연구팀이 거대언어모델(LLM)의 안전성 취약점을 정밀하게 분석한 연구 성과를 발표했다.

 

동국대학교(총장 윤재웅)는 본교 컴퓨터·AI학과 인공지능전공 정승원, 정지우, 김현진, 이윤석 석사과정생과 이우진 교수가 참여한 논문 ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’가 오는 4월에 개최되는 세계적 권위의 인공지능 학회인 ICLR 2026(International Conference on Learning Representations)에 채택되고 발표될 예정이라고 밝혔다.

 

이번 연구는 기존 LLM 보안 우회 공격이 프롬프트 끝부분에만 토큰을 추가하는 방식에 집중해 왔다는 한계에서 출발했다. 연구팀은 프롬프트 내부의 특정 위치에 존재하는 취약 지점을 확인하고, 이를 정량화한 Vulnerable Slot Score(VSS)와 새로운 공격 프레임워크 ‘SlotGCG’를 제안했다.

 

실험 결과, ‘SlotGCG’는 AdvBench 데이터셋과 Llama, Mistral, Vicuna, Qwen 등 다양한 공개 LLM에서 기존 방식보다 평균 약 14% 높은 성능을 보였고, 최대 10배 빠른 속도를 기록했다. 또 방어 기법이 적용된 환경에서도 기존보다 29% 높은 공격 성공률을 보여, 현재 LLM 방어 체계의 한계를 증명했다.

 

연구팀은 “이번 연구는 더욱 견고한 LLM 방어 기법을 설계하기 위한 AI 안전성 검증 및 레드팀 연구라는 점에서 의미가 크다”며 “단순한 공격 기법 제안에 그치지 않고, 거대언어모델이 어떤 위치 정보에 취약한지 체계적으로 이해하고 적용할 수 있는 연구”라고 설명했다. 특히, 이번 연구가 프롬프트 내 위치별 취약성을 계량적으로 분석했다는 점에서, 향후 대규모 언어모델의 안전성 평가, 정렬(alignment) 기술 고도화, 방어 프레임워크 설계에 폭넓게 활용될 것으로 기대된다.
  

한편, 연구팀은 앞으로 다양한 모델과 실제 서비스 환경에서의 인공지능 취약성 파악과 안전한 인공지능 개발을 목표로 연구를 이어갈 계획이다.