방재정보

방재 관련 기술정보를 전해드립니다.

공공데이터를 활용한 AI 화재위험예측

최창현 과장 KB손해사정 기업위험관리실 진단기획부 연구개발센터, 공학박사

1. 배경 및 목적

화재는 전 세계적으로 수많은 인명과 재산에 막대한 피해를 초래하는 심각한 재난이다. 특히 도시화가 급속히 진행됨에 따라 인구 밀집 지역에서의 화재 위험이 증가하고 있으며, 이에 따라 더욱 효과적인 예방 및 대응 전략의 필요성이 대두되고 있다.

국내의 경우, 최근 10년(2014~2023년) 동안 연평균 41,050건의 화재가 발생하였으며, 이로 인한 재산 피해는 연평균 7,047억 원에 달한다. 특히 2014~2018년 동안의 연평균 재산 피해액이 4,652억 원이었던 것에 비해, 최근 5년(2019~2023년)에는 9,443억 원으로 두 배 이상 증가하였다. 화재 발생 건수는 다소 감소했으나, 재산 피해는 증가하는 추세를 보이면서 보다 정교한 화재 예측 시스템의 필요성이 강조되고 있다.

최근, 인공지능(Artificial Intelligence, AI) 기술의 발전은 방대한 데이터를 분석하여 복잡한 현실 세계에서 새로운 패턴과 규칙을 발견하는데 강력한 도구로 자리 잡고 있다. 이러한 기술 발전은 이전에는 불가능했던 대규모 데이터를 활용한 화재 위험 예측에도 혁신적인 가능성을 열어주고 있다. 특히 2013년 ‘공공데이터 제정 및 이용활성화에 관한 법’ 제정 및 시행을 기점으로 국가에서 다양한 공공데이터를 지속적으로 개방함에 따라, AI를 적용한 예측 모형을 개발할 수 있는 환경이 마련되었다.

이러한 데이터 기반의 예측 시스템은 화재 사고와 밀접한 연관이 있는 보험업계에도 중요한 도구로 활용될 수 있으며, 보다 정교한 화재 위험 예측을 통해 손해율 감소에도 기여할 수 있을 것이다. 따라서 본고에서는 공공데이터와 AI 기술을 결합하여 화재위험을 예측하는 방안을 검토하고자 한다.

[그림 1] 최근 10년간의 화재발생 및 재산피해 현황

2. 공공데이터 활용

가. 종속변수 및 독립변수 선정

AI 모형을 통해 화재 위험을 예측하기 위해서는 종속변수(dependent variable)와 독립변수(independent variable)를 신중하게 선정하는 것이 필수적이다. 본 연구에서는 건물 단위의 화재 위험을 평가하기 위해 화재 발생 여부를 종속변수로 설정하였다. 이 종속변수는 화재가 발생했는지 여부를 이진 변수로 나타내며, AI 모형이 화재 위험을 예측하는 기준이 된다.

독립변수는 화재 발생에 영향을 미칠 수 있는 다양한 공공데이터에서 추출하였다. 이 데이터는 행정안전부, 국토교통부 등에서 제공하는 공공데이터를 재가공하여 사용했으며, 이를 통해 AI 모형의 입력 값으로 활용하였다. 독립변수 선정 과정에서는 국내·외 선행 연구들을 검토하여 기존 연구들에서 사용된 변수를 분석한 후, 국내에서 취득 가능한 자료들을 선별하고, 내부 화재 전문가들의 의견을 반영하여 최종적으로 34개의 독립변수를 선정하였다.

본 연구는 건물 단위의 화재 위험 예측을 목표로 하고 있기 때문에 개인정보 보호와 현장 조사의 한계를 고려하여 공공기관에서 제공하는 데이터만을 독립변수로 사용하였다. 이는 모형 실행을 위해 추가적인 조사가 필요 없으며, 데이터의 접근성과 신뢰성을 동시에 보장할 수 있는 장점이 있다. 다만 해당 건물의 내부적인 화재 위험 요소나 공정에 따른 위험 등 실제 현장 조사를 통해서만 취득 가능한 자료를 활용할 수 없다는 한계가 있다. 만약 화재 위험과 연관된 추가적인 현장 조사 자료를 확보할 수 있다면 모형의 고도화가 가능할 것으로 판단된다.

나. 데이터 수집 및 통합

수집 가능한 공공데이터는 실제 데이터를 작성하는 지자체 및 제공하는 기관에 따라 시간적(일, 월, 연 단위 등), 공간적(좌표, 동·리 단위 등) 차이가 있다. 또한 각 기관에서 제공하는 데이터는 공간정보파일(.shp, .dbf 등), 단순정보파일(.xlsx, .txt 등) 등 다양한 형식으로 존재한다. 이러한 차이를 극복하기 위해서는 각 데이터를 분석 가능한 형태로 정리하여 일관된 데이터 셋으로 통합하는 과정이 필요하다.

본 연구에서는 공간 조인(Spatial Join), 근접성 분석(Near) 등의 GIS(Geographic Information System) 분석을 활용하여 건물 단위의 공간 데이터를 기반으로 여러 자료를 통합하였다. 건물의 위치 정보를 기준으로 건축물 데이터(용도, 연간 전기에너지 사용량 등), 토지 데이터(지목, 공시지가 등), 행정구역 데이터(인구수, 건물 개수 등)를 종합하여 AI 모형의 표출 단위인 건물 단위로 통합된 데이터베이스(DB)를 구축했다. 이러한 통합 과정은 데이터의 일관성을 유지하고, 화재 위험 평가에 필요한 다양한 정보를 결합하는데 중요한 역할을 한다.

다. 데이터 전처리

효과적인 AI 기반 화재위험 예측모형을 구축하기 위해서는 데이터의 품질을 보장하는 전처리 과정이 필요하다. 수집된 데이터는 제공된 데이터 자체에서 누락된 결측치와 데이터 내 비정상적인 값(이상치)가 존재 할 수 있으며, 이러한 데이터를 그대로 사용하면 AI 모형 성능에 부정적인 영향을 미칠 수 있다. 또한 문자형과 숫자형(정수, 실수)의 데이터가 혼재되어 있을 경우, AI가 이해할 수 있는 형태로 데이터를 변환하는 작업이 필요하다. 이를 위해 카테고리화 기법, 정규분포와 회귀 분석, 다양한 특징 추출 등의 전처리 기법을 적용하였다. 이러한 전처리 과정을 통해 데이터 품질을 개선하여, 최종 AI 모형의 예측 성능을 향상시킬 수 있었다. 구체적인 데이터 전처리에 관한 사항은 후술할 ‘위험예측 정확도를 높이기 위한 데이터 연구 방향’을 참고하길 바란다.

3. AI 모형 개발

가. 불균형 데이터 처리

본 연구에서 사용하는 데이터에는 ‘화재’와 ‘비화재’ 간의 심각한 불균형이 존재한다. ‘비화재’ 데이터가 대다수를 차지하고, ‘화재’ 데이터는 소수이기 때문에 그대로 모형 학습을 진행할 경우 개발된 AI 모형은 ‘화재’ 사건을 정확하게 예측하지 못할 가능성이 크다. 이를 해결하기 위해 Under-sampling(1:1, 1:2, 1:3, 1:4, 1:5), SMOTE(Synthetic Minority Over-sampling Technique), ROSE(Random Over-sampling) 등 다양한 샘플링 기법을 사용하여 데이터 간 비율을 조정하였다. 이러한 샘플링 기법을 통해 불균형 문제를 완화하고, AI 모델이 ‘화재’와 같은 소수의 클래스를 더 정확하게 예측할 수 있도록 하였다.

나. 학습 및 평가 데이터 구분

모형 개발시 전체 데이터를 사용하여 학습 및 평가하면 자료가 중복되어 모형의 예측성능이 과대 평가되는 경향이 있다. 이러한 문제를 해결하기 위해 전체 데이터의 80%만 모형을 학습하는 학습용 데이터로 사용하고, 나머지 20%는 예측 성능을 평가하는 평가용 데이터로 구분하였다.

[그림 2] 학습 및 평가 데이터 구분

다. 머신러닝 및 딥러닝 기반의 개별 모형 개발

화재 위험 예측에 사용하는 데이터의 복잡성과 개별 모형의 독특한 특성에 따라, 다양한 머신러닝 및 딥러닝 기법을 적용하였다. 기존에 검토한 선행 연구를 바탕으로 총 16개의 머신러닝 및 딥러닝 모델을 사용하였으며, 이들 모형의 성능을 각각 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 스코어를 사용하여 평가하였다. 정확도는 전체 데이터 중에서 모형이 올바르게 예측한 비율, 정밀도는 모형이 화재가 발생할 것으로 예측한 건물 중 실제로 화재가 발생한 비율, 재현율은 실제 화재가 발생한 건물 중 모형이 화재를 정확히 예측한 비율을 의미한다. F1 스코어는 정밀도와 재현율의 조화 평균으로 두 지표간의 균형을 평가하는 지표이다.

[표 1] 적용한 샘플링, 머신러닝, 딥러닝 기법

라. 개별 예측 결과를 종합한 앙상블 모형 개발

개별 모형마다 데이터를 분석하는 방식이 다르기 때문에 일부 모델은 정밀도가 뛰어난 반면 재현율이 너무 낮고, 반대로 다른 모형은 재현율이 높지만 정밀도가 매우 낮은 결과가 나타났다. 이러한 변동성은 개별 모형만으로는 신뢰할 수 있는 예측을 하기에는 불충분하다는 것을 나타낸다. 이를 해결하기 위해 다수결 투표 시스템과 유사한 앙상블 모형을 사용하여 여러 모델의 예측을 종합하여 전반적인 예측성능을 향상시키고자 하였다. 실제로 기상청 등에서도 단일 모형 사용시 특정 자료에 결과가 왜곡될 수 있고, 확률적으로 제시하기 어려운 문제가 있기 때문에 여러 모형의 결과를 종합한 앙상블 모형을 사용하고 있다.

따라서 최종 화재 위험 등급은 16개 모델의 예측을 합산한 결과로 도출되었다. 어떤 모델도 화재가 발생하지 않을 것으로 예측한 경우부터 16개 모델 모두 화재가 발생할 것으로 예측한 경우까지 다양한 시나리오를 분석하였다. 이러한 접근 방식은 특정 데이터에서만 예측 성능이 뛰어난 과적합의 위험을 줄이고, 데이터의 변동성에 적절하게 대응하여 전반적인 예측의 신뢰성을 높이는데 기여하였다. 또한 여러 모델의 예측을 결합함으로써 앙상블 모형은 단일 모델보다 일관되게 우수한 성능을 발휘하므로 건물 화재 위험을 예측하는 유리한 것으로 나타났다.

[그림 3] 앙상블 모형 평가 방법 및 최종 화재 위험 등급 구성

4. 맺음말

공공데이터를 활용한 AI 기반 화재위험 예측모형은 고위험 건물을 식별하고, 화재 예방 및 대응의 우선순위를 설정하는데 효과적인 도구로 자리 잡을 수 있을 것으로 기대된다. ‘KB손해보험’과 ‘한국화재보험협회’는 2024년 MOU를 통해 본격적으로 전국 건물 단위의 AI 모형 개발을 시작하였다. 비록 초기 단계에서는 예측 성능이 완벽하지 않을 수 있지만, 지속적인 데이터 보완과 국내 실정에 맞는 방법론 개선을 통해 정확도와 신뢰성을 높일 수 있을 것으로 판단된다.

특히 보험업에서는 AI 모형을 통해 화재 위험이 높은 건물을 사전에 예측하여 데이터 기반의 의사결정 지원을 지원하고, 선제적인 안전 점검과 자문 서비스를 제공함으로써 손해율 관리에 기여할 수 있을 것으로 판단된다. 또한, 금융업에서도 담보 설정 과정 등 건물 단위의 화재위험 예측결과를 반영해 금융 상품 설계 및 리스크 관리의 기초자료로 활용할 수 있을 것으로 기대된다. 다만 예측 성능이 우수한 AI 모형이 성공적으로 개발 및 실무에 적용되기 위해서는 데이터의 품질 관리, 고객과의 협력, 그리고 법적 검토와 적용 가능성에 대한 충분한 검토가 필요하다.