정확도를 넘어: 위험 인지 기반의 의사결정 중심 AI 평가 프레임워크

• 해당 논문은 2025 한국군사과학기술학회 추계학술대회에서 발표되었습니다.

Beyond Accuracy: A Risk-Aware and Decision-Oriented AI Evaluation Framework

정주원 Juwon Jung
㈜모아소프트
jwjung@moasoftware.co.kr

ABSTRACT
This study proposes a risk-aware, decision-oriented AI evaluation framework for software defect and vulnerability detection. By applying strict temporal data splits, deduplication, and a Residual Risk (RR) metric, the framework corrects model overestimation and measures Residual Risk under limited resources. Validation on PrimeVul demonstrates that the framework enables trustworthy performance evaluation and its potential as a standard evaluation method.

Key Words : Risk Management, Performance Evaluation, Decision-Making, Leakage, Software Vulnerabilities Detection, Artificial Intelligence

1.서론

소프트웨어 신뢰성은 국방 및 방위 산업에서 무기 체계의 안전과 품질을 보장하는 핵심 요소로, 결함이나 취약점으로 인한 소프트웨어 장애는 심각한 사회적·경제적 피해로 이어질 수 있다[1]. 따라서 AI를 활용한 결함 및 취약점 탐지•예측 성능의 정밀 평가는 소프트웨어 공학(SE)의 지속적인 과제이다. 그러나 기존 AI 모델 평가 방식은 두 가지 주요 한계를 갖는다. 첫째, 전통적인 데이터 랜덤 분할 및 중복 허용 방식은 시계열 누수(temporal leakage)와 데이터 중복(data duplication)을 유발하여 모델의 일반화 성능을 과대평가한다[2-5]. 둘째, 최근 PrimeVul연구[4]에서 시간순 분할(chronological data splitting)과 데이터 중복 제거(de-duplication)로 이러한 과대평가는 교정되었으나, 제한된 자원 하에서의 실무 효용성을 측정하는 데는 여전히 한계가 있다. 현업의 의사결정은 한정된 인력과 시간 내에서 이루어지므로, F1-Score같은 전통적인 종합 성능 지표만으로는 “주어진 자원 내에서 얼마나 많은 위험(결함 및 취약점)을 경감할 수 있는가”라는 질문에 답하기 어렵다. 본 논문은 이러한 문제의식에 기반하여, ①시간 기반의 엄격한 데이터 분할(temporal split 및 duplication control)과 ② 잔여 위험(Residual Risk)을 정량화한 평가 지표를 중심으로 하는 견고한(Robust) AI 모델 성능 평가 프레임워크를 제안한다(Fig. 1). 실제 데이터셋 적용 및 기존 지표와 비교 분석을 통해 제안 프레임워크의 효용성을 입증한다. 본 프레임워크는 모델의 일반화 성능을 투명하게 측정할 뿐만 아니라, 군(軍)과 같이 자원이 한정적인 환경에서 자원 배분과 우선순위 결정(Top-K개 검토 등)을 지원하는 실질적 평가 표준으로 활용될 수 있다.

…중략…

4. 결론

본 논문은 AI 모델의 성능 과대평가와 실무 효용성 저하 문제를 해결하고자, 엄격한(Strict) 데이터 통제(시간순 분할/중복 제거)과 잔여 위험 지표(𝑅𝑅𝐶𝑢𝑟𝑣𝑒 및 𝑅𝑅𝑆𝑐𝑜𝑟𝑒)를 결합한 성능 평가 프레임워크를 제안하였다. 본 프레임워크는 ①데이터 누수 및 중복 통제를 통해 모델의 일반화 성능을 교정하고, ②기존 노력 인지 지표(EAM)를 보완하는 𝑅𝑅𝐶𝑢𝑟𝑣𝑒를 통해 실무 현장의 제약된 자원 하에서의 신속한 의사결정을 지원한다. PrimeVul 데이터셋 검증 결과, 본 프레임워크는 모델의 실효성을 투명하게 측정하는 평가 표준으로 활용될 수 있음을 입증했다. 향후 본 연구를 다양한 도메인의 데이터셋으로 확장하는 후속 연구가 필요하다.