이전 대규모 데이터 센터의 위험관리 이후

대규모 데이터 센터의 위험관리-1

글 유호정 부산경남지역본부 과장, PE(미국 소방기술사), CPCU(미국 손해보험 언더라이터)

인터넷과 통신 네트워크, 그리고 이를 지원하는 데이터를 처리·저장하는 데이터 센터는 현대인의 생활에서 필수적인 인프라이다. 이러한 기반시설이 작동을 멈춘다면 이로 인해 발생하는 혼란과 손실은 기업 또는 지역사회뿐만 아니라, 그 영향이 어디까지일지 가늠할 수 없을 만큼 우리가 사는 세상은 초연결 사회로 가고 있다.

현재 IT 강국 한국의 많은 데이터 센터가 기존 건물들에서 가동 중이다. 거대한 정보기업들은 늘어나는 데이터 처리 수요를 감당하기 위해 추가로 부지를 확보하여 대규모 데이터 센터를 설치하거나 설치할 예정이다. 해외 유수의 기업들도 한국에 데이터 센터를 설치하여 가동하고 있다.

화재

이러한 데이터 센터의 가동 중단을 일으키는 손인(Peril) 중 화재는 드물게 일어나고 있지만, 발생 시 그 여파와 영향의 범위는 일반적인 화재의 경우와는 완전히 다른 차원이라 할 수 있다. 이번 글에서는 데이터 센터의 리스크와 화재 시 손실 발생 요인 등을 알아보고, 화재안전 관점에서의 방재계획(건축 구조, 화재 진압, 비상대응계획) 등에 대하여 기술하고자 한다.

1. 데이터 센터의 리스크

컴퓨터와 데이터 처리장치는 2차 세계대전 이래로 빠른 기술발전의 핵심이었다. 컴퓨터는 복잡한 수학적 문제를 해결하거나 이전에 저장된 정보를 매우 빠르게 검색할 수 있기 때문에 재고관리에서 우주탐사에 이르는 다양한 응용 분야에서 사용되고 있다. 또한 여러 분야에서 공유경제 개념으로 전환되고 있는 현대에는 많은 정보들이 클라우드 네트워크로 전송되어 분산 저장되고 있으며, 어느 한 장소의 문제가 어디에까지 장애를 일으킬 수 있는지에 대한 예측이 힘든 상태이다. 즉, 이러한 공간에서의 사고는 직접적인 손실 리스크뿐만 아니라 간접적인 손실, 즉 데이터 손실, 업무중단, 사용자 불편 등으로 인한 것이 상당하다 할 수 있다.

가. 직접적 손실 리스크

데이터 센터 공간의 단위 면적 당 자산가치는 일반적인 제조시설 또는 창고 영역보다 상당히 높다. 제한된 지역에 그러한 자산이 있으면 모든 화재를 신속하게 감지하고 진압하는 것이 더욱 중요하게 되며, 연기 및 부식성 가스로 인한 손상을 방지하기 위해 연소 생성물을 최소한으로 유지하고 사고 발생 후 신속하게 제거하는 것이 중요하다.

컴퓨터 구성품의 대부분은 가연성이고, 충분히 높은 열원에 노출되면 일부 구성품이 손상을 입을 수 있다. 컴퓨터 회로는 과열된 저항 또는 커패시터에 의해 발화되었으며, 수직 또는 수평으로 쌓여진 스태킹 배열은 구획된 구조 내에서 빠른 화재 확산을 초래할 수 있다.

다량의 내부 및 외부 전기 배선도 화재를 일으킬 수 있으며 가연물을 충분히 공급할 수 있다. 플라스틱 테이프 릴 또는 카세트 용기는 고속 프린터와 관련된 상당한 양의 종이 용지와 함께 준비된 가연물 공급원이다.

나. 업무중단으로 인한 리스크

기존 데이터 센터 화재사고를 보면 사전수립된 비상계획이나 신속한 대응여부에 따라 사고의 여파, 네트워크에 주는 영향의 범위, 서비스 중단 시간 등의 차이가 큼을 알 수 있다. 대형 데이터 센터의 파괴는 상당한 금전적 손실을 나타내지만, 갑작스러운 이용 불가로 인해 더 심각한 재정적 결과가 발생할 수 있다. 백업이나 다른 설비를 이용하여 긴급하게 업무연속성을 확보할 수 있지만 다음과 같은 경우에는 이마저도 여의치 않을 수 있다.

• 파괴된 설비가 유일무이하다.
• 유사한 장치가 너무 멀리 있거나 기존 데이터 처리 부하로 인해 사용할 수 없다.
• 자연재해로 광범위한 지역의 다수의 데이터 센터가 피해를 입은 상태다.
• 보안문제로 외부에서 기밀 데이터를 처리하는 것을 허용하지 않는다.
• 컴퓨터가 산업 공정(예 : 화학 플랜트 또는 주요 부품)을 직접 제어한다.

2. 주요 화재

병원 전산서버 화재로 병원 수술업무 지연

2012년 10월 캐나다 캘거리의 Shaw communications에서 화재가 발생하여 도시 행정 서비스와 수백 건의 병원 수술이 연기되는 혼란이 발생하였다. 13층의 전기실에서 폭발이 발생하였는데, 26,000V의 전기를 3개 층에 있는 Shaw와 IBM에 공급하는 변압설비였다. Shaw와 IBM의 서버들은 알버트주 보건서비스 시스템(의료보험, 진료 정보 등)을 운영하는 설비였다.

화재로 인하여 2시간 넘게 스프링클러가 작동하였고, 이것들이 벽과 가구를 적시고 흘러내리면서 민감한 전기설비들을 적시었다. 전문가들에 의하면, 건축법상 이 건물에는 애초에 스프링클러가 설치되어 있었다고 한다. Shaw의 서버는 이 지역 병원들의 컴퓨터시스템을 지원하는데, 서버가 멈추자 병원의 시스템에 영향을 미치고, 이로 인하여 긴급한 치료, 수술에 차질을 빚었으며, 서버는 6일 만에 복구되었다.

구글 데이터 센터 지원설비 화재로 인한 수손

2010년 4월 구글의 데이터 센터 1곳이 화재로 영향을 받아 42,000여 개의 서버가 영향을 받아 전 세계 여러 곳에서 검색서비스 중단 현상이 발생하였다. 사고는 이산화탄소 배출을 줄이기 위한 설비(CO2 handler)에서 발생한 조그만 불꽃에서 시작한 화재로 인하여 스프링클러가 동작하였고, 이것으로 화재를 진압하였으나, 라우팅설비 중 하나가 스프링클러에서 방출된 물에 영향을 받아 기능을 상실하여 전체 시스템에 영향을 미치게 되었다.

비상발전기 화재가 가연성 외벽으로 연소확대

2014년 4월 국내 ooo 데이터 센터에서 발생한 화재로 금융 관련 결제 서비스 등이 한동안 지연되었다. 화재는 건물 3층 발전기실 측 연도(연통) 부근에서 발생하여 가연성 외벽을 타고 옥상부까지 퍼졌고, 이로 인하여 데이터 센터의 가동에 영향을 미쳐 일부 서비스가 중단되었다.

인도 뭄바이 데이터 센터 사고로 모바일서비스 중단

2011년 12월에 뭄바이의 모바일통신사 Airtel의 한 데이터 센터에서 화재가 발생하여 몇 시간의 모바일서비스 중단피해를 입었다. 화재는 교외에 위치한 한 데이터 센터에서 전기적 원인인 단락(short circuit)으로 발생하였는데, 이 화재로 인하여 Airtel 고객의 17%가 영향을 받아 여러 시간 동안 서비스를 이용하지 못하는 불편함을 겪었다.

증권거래소 서버 화재-위험 분리 및 신속대응으로 피해 최소화

뉴욕증권거래소의 서버인 Mahwah 데이터 센터의 한 컴퓨터 서버에서 화재가 발생하고 즉시 소화되었다. 다행히 일요일에 발생하고 58개소의 고객사에 영향을 줄 수 있었으나 월요일 장 개장 전에 원상복구 되었다.

화재 영향이 미미한 이유 중 하나는 전원과 냉각장치를 분할하여 전기적 문제 발생 시 영향을 최소화한 것이다. 즉 서버 구역을 3개로 분할하였으며 한 부분의 문제가 다른 구역에 영향이 없도록 설계되었다. 비상상태에 대응할 수 있도록 직원들에 대한 훈련 및 배치가 적절하게 되어 있어 화재 대응이 신속하게 되었다고 한다. 또한 데이터 센터 내 온도를 감시하고 급작스러운 변화 시 경보를 울릴 수 있게 되어 있었다.

3. 화재 관련 손실 발생 요인

데이터 센터 구역에서의 화재뿐만 아니라 센터가 위치한 건물에 화재 발생 시에는 데이터 센터에 여러 가지 경로로 영향을 미치게 된다[그림 1]. 이하 화재로 인하여 발생할 수 있는 손실 요인들에 대해 설명한다.

화재발생으로 인한 주요한 손실 발생 과정
[그림 1] 화재발생으로 인한 주요한 손실 발생 과정

가. 연기 침입

터미널 및 회로 보드에 달라붙은 연기 입자는 컴퓨터 동작에 이상이 발생할 수 있다. 테이프, 디스크, 카세트 또는 드럼에 증착되면 이러한 입자가 불완전하거나 잘못된 정보 번역을 일으킬 수 있다. 이러한 상태는 복구될 수 있지만 필요한 청소에는 상당한 가동 중지 시간이 필요할 수 있다.

데이터 센터 자체의 화재 또는 센터가 위치한 건물 내 화재로 인하여 연기가 발생하고, 이로 인하여 연기에 민감한 구역으로 연기가 침입할 수 있다. 현대적 건물은 공조 설비 및 각종 지원설비 공간 등 육안으로 보이지 않는 곳에서 건물을 수직, 수평으로 관통하는 기기들이 존재하며, 이러한 관통부에 대한 적절한 마감, 실링 조치가 되어 있지 않은 상태인 경우 연기의 전파 및 침입은 어렵지 않게 된다.

나. 온도 상승

데이터의 기록과 저장을 위한 컴퓨터 장치와 재료는 높은 주위온도에서 손상될 수 있다. 손상 정도는 노출, 장치의 설계, 데이터의 기록과 저장용 재료에 따라 다르다. 주위 온도 66℃ 정도에서 데이터의 손실이 발생하기 쉽다. 주위 온도 93℃ 이상에서는 테이프 릴, 디스크, 카세트, 드럼 등에 심각한 비틀림 현상이 나타날 수 있다. 주위 온도 149℃와 260℃ 사이에서는 이들의 교체가 필요한 손상이 컴퓨터의 구성요소에 나타날 수 있다. 또한, 주위온도 343℃와 399℃ 사이에서는 폴리스티렌 케이스와 릴의 품질이 떨어지고, 인화성 스티렌 가스가 생성될 수 있다[그림 2].

데이터 센터 설비 가동 시 냉방에 들어가는 전원 용량이 <표 1>과 같이 거의 절반을 차지하고 있어 그 부하가 크다. 예를 들어 변압기 등의 전원설비 화재로 인하여 냉방장치가 가동 중단된 경우 데이터 센터를 일단 비상전원으로 가동한다면, 데이터 손실 가능온도인 섭씨 66도에 다다르는 시간이 그리 오래 걸리지 않을 수 있다.

온도 상승이 데이터 센터에 주는 영향
[그림 2] 온도 상승이 데이터 센터에 주는 영향


데이터 센터의 전원 부하 비중
<표 1> 데이터 센터의 전원 부하 비중
(Data Center Energy Consumption Modeling: A Survey, IEEE Communications Survey and Tutorials)

다. 연소 생성물 발생

화재 또는 전기적인 열로 인하여 데이터 센터 내에서 부식성 가스가 생성될 수 있다. 특히, 위험한 것은 폴리비닐클로라이드(PVC) 절연체의 분해 시 발생하는 많은 양의 염화수소이다. 주위 대기중의 습기와의 결합 및 연소과정에서 이러한 가스는 단자, 회로의 구성요소, 전자 부품을 손상시키는 강한 부식제인 염산으로 변화한다.

라. 물

물에 민감할 수밖에 없는 데이터 센터의 장비들에 대한 수손방지 대책은 무척 중요하다. 데이터 센터 관련 사고에서는 스프링클러 작동으로 인한 물 방출로 인한 손실사례가 존재한다. 수손은 일반적인 건물의 지원설비 배관에서의 누출뿐만 아니라 소화활동을 위한 스프링클러 작동 시에도 발생할 수 있다. 이러한 손실 방지를 위하여 국내 소방법상 통신기기실·전자기기실·기타 이와 유사한 장소에는 스프링클러헤드의 배치를 제외할 수 있게 되어 있고, 통신기기실 또는 전산실, 그 밖에 이와 비슷한 것으로서 바닥면적이 300㎡ 이상인 것에는 물분무등소화설비를 설치하도록 하여 주로 가스계 소화약제 설비를 설치하고 있다.

이전 세대의 컴퓨터는 고전압 회로를 사용했으며 진공관에 열 충격을 가해 물에 손상되기 쉽다. 하지만 현대 컴퓨터는 그 구성요소가 많이 달라졌으며, 컴퓨터의 주요 전기 부품은 직접적인 물 침입로부터 보호되어 상대적으로 리스크가 줄어들었다. 미국의 통계에서 보면 스프링클러 방출로 인한 수손은 컴퓨터실 내의 다른 물 공급원(냉각수 라인, 식수 및 배수 라인)의 그것보다 발생 빈도가 적다. 즉 스프링클러 설비 누출의 발생률은 매우 드물다. 통계적으로 보고된 의도되지 않은 스프링클러설비에서의 물 방출의 75% 이상은 열, 동결 또는 기계적 손상으로 인한 것으로, 이러한 요인은 일반적으로 컴퓨터 설치 구역의 환경과 관련이 없는 조건이다.

참고문헌

GAP.17.10, ELECTRONIC DATA PROCESSING FACILITIES
FMDS 5-32, DATA CENTERS AND RELATED FACILITIES
www.controlfiresystems.com/news/data_fire/

※ 다음 호에서 계속