해당 논문은 2023년 한국군사과학기술학회 추계학술대회에서 발표되었던 논문입니다.

인간의 습관적 특성을 고려한 악성 도메인 탐지 모델 구축 사례: LSTM 기반 Deep Learning 모델 중심

Case Study of Building a Malicious Domain Detection Model Considering Human Habitual Characteristics: Focusing on LSTM-based Deep Learning Model

정주원* · 이지현**

* ㈜모아소프트, 광운대학교 대학원 방산AI로봇융합학과

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Abstract : This paper presents an LSTM-based deep learning model building to detect malicious domains by considering human habitual characteristics. DGA malicious domains exploit human habitual errors and pose
serious security risks. LSTM based models automatically analyze domains and classify them into malicious or benign categories. The performance of the model is evaluated using ROC curve and AUC. This paper presents a new approach to enhance cybersecurity.

Key Words : LSTM, DGA, Human Habit, Typosquatting, Malicious Domain, AUC, ROC curve, Cybersecurity

1. 서 론

악성코드의 급증으로 인해 사이버 보안의 중요성이 더욱 강조되고 있다. 악성코드는 컴퓨터 시스템과 네트워크를 심각하게 훼손시킬 뿐만 아니라, 사용자의 개인 정보와 기업의 기밀 데이터를 노출한다. 이에 따라 악성코드 탐지와 분류 기법의 연구는 중요한 연구 과제로 부상하고 있다. 악성코드 생성 및 피해는 1980년대 초부터 현재까지 꾸준히 발생하고 있다(한국데이터산업진흥원 2006년 4월 Dicon Report). 한국인터넷진흥원 ‘2021 악성코드
은닉 사이트 탐지 동향 보고서’에 따르면 2021년 악성코드 탐지 건수는 약 5200건을 넘어섰다. 매년 최소 100건 이상의 사이버 침해사고 신고가 발생하고 있으며, 이 중 2023년에만 156건을 기록하였다(‘2023년 상반기 사이버 위협 동향 보고서’). 이는 2023년 전체 사이버 침해 신고 건수(664건) 중에서 서버해킹(48.2%) 다음으로 큰 비율(23.5%)을 차지한다. 최근 악성코드 전파는 DGA(Domain Generation Algorithm) 악성 도메인을 활용해 C&C(Command & Control) 서버를 은폐하는 방식으로 변화하고 있다. 이에 시그니처 및 행위 기반 같은 전통적 탐지 방법은 악성 코드 및 도메인 탐지에 한계를 드러내고 있다. 시그니처 방식은 이미 알려진 악성 도메인에만 효과적이며, 새로운 악성 도메인이나 변형된 악성 도메인을 감지하는 데 제한적이다. 행위 기반 방법 역시 다양한 변형과 은폐 기술 발전으로 인해 낮은 탐지 정확도를 보인다. 이에 본 논문에서는 LSTM(Long Short-Term
Memory) 기반 Deep Learning 기술을 활용하여 DGA 악성 도메인의 탐지와 분류를 위한 새로운 모델을 제안한다. 시계열 데이터를 처리하기에 적합한 LSTM 모델은 DGA 악성 도메인의 특징과 패턴을 학습하여 정확한 판별을 가능하게 한다. 본 연구에서는 LSTM 기반 모델을 통해 악성 도메인과 정상 도메인을 식별하고, 신뢰성을 높이기 위해 교차 검증을 수행한다. ROC 곡선과 AUC 값으로 모델의 판별 성능을 분석하며, 연구결과를 다양한 시각화 자료로 제시한다. 이를 통해 기존의 타 연구 모델들 대비 우수한 판별 정확도를 입증하고, 이를 기반으로 향후 관련 연구 방향을 제안한다.

2. 본 론

2.1 타이포스쿼팅과 인간의 습관적 특성 상관관계

2.1.1 DGA 특성 및 설문 조사 방법
DGA(Domain Generation Algorithm)는 악성코드가 특정 명령 및 제어 서버(C&C 서버)와 통신할 때 사용할 도메인 주소를 동적으로 대량 생성하는 알고리즘이 다. DGA의 타이포스쿼팅 기법은 일반적인 사이트의 도메인 이름을 교묘하게 변형하여 인간의 도메인 접속 실수를 유발한다. 본 논문에서는 이와 관련하여 20세~60세 75명의 성인을 대상으로 악성 도메인 경험에 관한 설문 조사를 실시하고 SPSS를 활용하여 조사 결과를 분석하였다.

…중간 생략

3. 결 론 및 제 언

3.1 결과 해석과 의의
연구결과에 따르면, 인간의 습관적 특성과 도메인 패턴을 고려하여 설계된 LSTM 기반 Deep Learning 모델은 AUC 99% 이상의 뛰어난 악성 도메인 탐지 정확도를 보였다. 이는 기존의 전통적 탐지 방식 및 기타 LSTM 기반 모델들과 비교하여 더 높은 성능을 보여주는 결과이다. 이러한 연구결과는 보안 업계에서의 악성 도메인 탐지 기술을 개선하고, 사용자들을 보다 효과적으로 보호하는 데 기여할 수 있다. 3.2 제안 모델의 한계점 및 향후 연구 방향 제안 학습에 사용되는 데이터의 수량과 다양성은 모델의 성능에 큰 영향을 미친다. 따라서 더 많고 다양한 악성 및 정상 도메인 데이터를 수집·학습시켜 모델의 결함을 보완하고 오류를 최소화하고, 최종적으로 모델 성능 및
완성도를 높여야 한다. 향후 연구에서는 다양한 데이터셋을 활용하고, 실제 환경에서의 적용 가능성을 고려하여 실시간 악성 도메인 탐지 시스템을 개발해야 한다. 본 논문에서 제안한 모델을 기반으로 악성 도메인을 이미지로 변환하고 학습된 악성 도메인과의 유사도를 분석할 수 있다면, 이 메일로 유입되는 다양한 형태의 악성 도메인을 실시간으로 신속하게 감지할 수 있다. 이러한 접근법은 사이버 침해를 효과적으로 예방할 것이다.