콘텐츠로 건너뛰기
Home » 생성형 AI 프롬프트 보안을 위한 DistilBERT 기반 소스코드 내 민감 키워드 탐지 방안 연구

생성형 AI 프롬프트 보안을 위한 DistilBERT 기반 소스코드 내 민감 키워드 탐지 방안 연구

 

• 해당 논문은 2025 한국정보보안학회에서 발표되었습니다. 

 

생성형 AI 프롬프트 보안을 위한 DistilBERT 기반 소스코드 내 민감 키워드 탐지 방안 연구

 

정주원*

모아소프트㈜

A study on detecting security-sensitive keywords in source code using a DistilBERT-based model for securing generative AI prompts


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Key Words : Privacy Leakage, Generative AI Security, Prompt Injection, Preemptive Detection

 

 

서론

최근 소프트웨어 개발 환경은 프롬프트 기반 생성형 인공지능(Generative AI; ChatGPT, Copilot 등) 활용 확산으로 새롭게 바뀌고 있다. 해당 AI는 자연어 기반 코드 생성, 테스트 자동화, API 연동 등을 통해 개발 생산성 향상에 기여하고 있다. 이런 긍정적 효과에도 불구하고, 잠재 위험 요소가 발생할 수 있다. 예를 들어, 사용자가 프롬프트 작성 시 특정 민감 정보(예: 사용자 식별 정보, SMTP 비밀번호, API키, 인증 토큰 등)를 포함 할 경우, 해당 정보가외부 서버에 무단 저장되거나 학습 데이터로 수집되어 유출되는 등의 보안 문제가 발생할수 있다.


본 연구는 경량 Transformer 기반 모델인 DistilBERT를 활용하여 소스코드 내 민감정보를 문장 및 토큰 단위로 사전에 탐지(Preemptive detection)하는 방안을 제안한다. 본 연구는 사전 학습된 DistilBERT 모델을 토큰 분류 태스크에 맞춰 파인튜닝(Fine-tuning)하고, 각 토큰에 대해 민감 여부를 판단한 후 전체 문장의 보안 위험도를 계산한다. 또한, 예측된 민감 토큰을 연결하여 유출 가능성이 있는 키워드를 추출함으로써, 생성형 AI 사용자가 프롬프트 입력 단계에서 민감 정보를 실시간으로 인지할 수 있도록 지원한다. 연구 결과, 제안한 모델은 Accuracy 95%, AUC 99%의 우수한 일반화 성능을 보였으며, 비표준 민감 변수명도 높은 탐지율을 보였다. 평균 약 250ms의 예측 지연 시간과 초당 평균약 4문장 처리 속도(Throughput)로 실시간 필터링에 적용 가능한 수준의 일반화 성능을 입증하였다. 본 연구의 DistilBERT 기반 민감 정보 탐지방안을 생성형 AI 프롬프트 사전 보호 체계의 핵심 요소로 활용하고, 향후 다중 클래스 분류 체계확장, 경량화 기반 최적화, 프롬프트 보안 게이트웨이 연계를 포함한 고도화 방향성을 논의한다.

 

 

…중략

 

 

결론

본 연구에서는 생성형 AI 프롬프트 입력 시 발생 할 수 있는 민감 정보 유출에 대응하고자, DistilBERT 기반의 소스코드 내 민감 키워드 탐지 방법을 제안하였다. 제안한 모델은 코드 문장 내 각 토큰의 민감 여부를 분류하고, 이를 기반으로 전체 문장의 보안 위험도를 산출하는 방식으로 동작한다. 연구 결과, 본 모델은 Accuracy 95%와 AUC 99% 일반화 성능을 기록하며, 다양한 비정형 표현에 대해서도 강건한 일반화 성능을 입증하였다. 특히, 평균 약 250ms의 지연 시간과 평균 약 4문장/초의 처리 성능으로 실시간 프롬프트 필터링 환경에 적용 가능한 수준의 효율성을 확보하였다.


향후 연구에서는 학습 데이터 확장과, 정적 분석 기반 사전 필터링 및 사전(Dictionary) 후처리를 통해 오탐지를 줄일 예정이다. 또한 민감 정보 유형별 다중 클래스 분류 체계로의 확장, 양자화(Quantization) 및 프루닝(Pruning)을 통한 모바일·서버리스 환경 최적화 가능성에대해 검토할 예정이다. 이러한 방향은 AI 기반프라이버시 보호 체계의 신뢰성과 적용 가능성을 한층 강화하는 데 기여할 것으로 기대된다.