본문 바로가기
통계학 공부

6. 데이터 시각화의 중요성을 알려주는 사례

by 에쓰지 2023. 4. 16.

(1) 데이터 시각화가 중요한 이유

 

빅 데이터 ( Big Data ) 란 디지털 환경에서 발생하는 대량의 모든 데이터를 말한다.

요즘은 매일 2 5천억 바이트의 빅 데이터가 생성된다고 한다. 페이스북에서는 하루 300페타바이트 이상의 정보가 저장되고 공유된다고 한다. 또한 전 세계에서 하루에 500억 건 이상의 트윗 사용하고 있다고도 한다. 이것이 어느 정도 크기인지 가늠조차 안 된다.

뉴욕타임즈가 하루에 싣는 정보의 양은 17세기 영국의 평범한 사람이 평생 소비하는 정보의 양과 비슷하다( Wurman, S.A.(1987). Information Anxiety. New York : Doubleday) 는 말이 1987년도에 나온 얘기라는데, 지금의 정보양을   과연  어느 정도일까 ?

Google 검색 및 온라인 쇼핑 습관과 같은 활동 데이터, 텍스트, 스마트폰, 커뮤니케이션 및 대화, 모든 사진과 비디오를 통해 수집한 센서 데이터 등을 생각해보면 지금은 소위 정보의 홍수란 말이 부족해 인포 팬데믹이란 말까지 생겨났다고 한다.

이러한 정보의 홍수/인포 팬데믹에서 유용한 정보를 추려내는 것이 보다 중요한 시점이 되었다.

또한 전달자 입장에서는 효율적인 정보전달이 중요하다. 따라서 시각화를 통한 직관적인 정보 전달의 중요성이 점점 높아지고 있다.

최근 시각화에 대한 중요성은 점점 늘어가고 있는 이유는 너무 많은 정보를 일일이 다 살펴볼 수 없기 때문에 짧은 시간에 정보를 정확히 전달하기 위해서이다.

통계학 공부를 시작하고서 알게 된 성공적인 시각화에 대한 대표적인 사례를 정리했다.


(2) 나폴레옹의 러시아 진격지도 ( 1812.6 ~ 1813.1)

 

 

▶ 샤를 조셉 미나르 (Charles Joseph Minard,1781~1870)가 그림으로 표시한 나폴레옹의 러시아 원정 상황이다.

     샤를 조셉 미나르는 토목공학 및 통계의 인포그래픽 분야에 크게 기여한 프랑스 토목 기술자라고 한다.

▶ 위 그림은 통계학 책에서 뿐만 아니라 인포그래픽 책에서도 항상 언급된다고 한다.

▶ 색상의 명도( 짙은색 옅은색), 선 굵기 등을 이용하여 전쟁 당시 병력의 숫자를 묘사하여 하나의 그림 안에 많은 정보를 담고 있다.

 6가지 정보 즉, 병력크기, 지리정보, 이동거리, 방향, 온도, 날짜를 표현하고 있다.

 병력크기 : 연갈색과 검은색 경로선의 굵기는 해당 지점에서의 병력 수를 의미한다. 원정을 출발하던 초기에는 42만 대군이므로 매우 굵게 표시되지만, 갈수록 줄어드는 것을 볼 수 있다. 선의 굵기는 병력 수에 대응되도록 비율에 맞게 정확히 그려져 있다. 1만 명을 1mm 굵기로 표시했다고 밝히고 있다.

▶ 지리정보 : 연갈색과 검은색 경로선은 실제 지도를 반영하여 만들었다고 한다. 왼쪽(서쪽)은 폴란드와 러시아의 국경을 이루던 네만 강으로 시작하고 있으며, 오른쪽(동쪽) 끝은 모스크바다.

▶진격과정에서는 상대적으로 긍정적인 색깔로, 퇴각하는 것은 부정적인 시커먼 색깔로 표현하였고, 밴드의 폭으로 군대의 크기를 나타내고 있다. 처음에는 두꺼운 밴드로 42만명 표현하였고 군대 숫자가 줄어들면서 밴드의 폭도 좁아지고 있다.

특히, 검은색 밴드 아래에는 퇴각할 때의 날짜 및 그 날의 온도도 표기함으로써 열악했던 환경을 표현하고 있다.

나폴레옹의 러시아 침공에 대해서 굉장히 생생하게 상황을 전달해주는 좋은 통계의 그림으로 평가받고 있다.


(3) 나이팅게일의 로즈 다이어그램

 

 

▶ 플로렌스 나이팅게일 ( Florence Nightingale, 1820~1910) : 백의의 천사라는 말로 표현되는 간호사하면 떠오르는 이름이 아마도 "나이팅게일" 일 것이다.

▶ 간호사 뿐만 아니라 통계학자로서도 업적이 있었다는 사실을 새롭게 알게 되었다.

 1850년대 크림 전쟁 중 군인들이 전투 중 입은 부상으로 사망하는 경우보다 불결한 병원 환경에 의해서 사망하는 경우가 더 많았다고 한다. 이를 나이팅게일이 이러한 사실을 널리 알리기 위해 나이팅게일이 로즈다이어그램을 고안했다고 한다.

▶ 로즈 다이어그램은

1854 4 ~ 1856 3월까지 크림전쟁 이스트지역에서 사망한 사병들의 사인 (부상, 질병, 기타원인)을 분류하여 정리한 것이다.

각 원인별 사망자 수를 면적으로 표시하였다.

크림전쟁에서 병사들의 원인별 사망자수를 red : 부상 , blue : 질병, black: 기타로 구분하여 표현하였다.

위 그림에서 보듯이 대다수의 사망원인은 파란색인 전염성 질병임을 알 수 있다.

▶ 위 로즈다이어그램은 나이팅게일이 병원환경개선 필요성을 정치인이나 고위 공무원들을 설득 할 때 근거자료로 활용하였다고 한다. 이후 병원 환경 개선 되었고 이후 사망자 수가 대폭 감소하였다고 한다.

▶ 통계학적 공로를 인정받아 1859년 여성최초로 영국 왕립 통계학회 회원과 이후 미국통계학회 명예회원으로 선출되었다고 한다.


(4) 존 스노우 박사의 콜레라 지도

 

 

▶ 존 스노우 ( John Snow, 1818~1858) : 영국 빅토리아 시대 의사.

19세기 중반까지 유럽인 등은 콜레라가 나쁜 공기에 의해 발생한다고 믿었다고 한다.

▶ 이 가설을 의심하던 영국의 젊은 의사 존 스노우가 1854년 런던에서 발생한 콜레라 집단 발병의 원인을 찾기 위해 환자가 발생한 지역과 환자 수를 표시한 지도를 만들었고, 브로드가(Broad Street) 에 있는 우물 주변에 환자가 집중되 어 있는 것을 확인하고 이 우물이 콜레라의 원인으로 밝혀지면서 콜레라가 수인성 전염병이라는 것이 밝혀졌다.

▶ 역학의 시초라고 한다.


(5) Gapminder Tools - 한스 로슬링

 

https://www.gapminder.org/tools/#$chart-type=bubbles&url=v1

 

▶ 한스 로슬링 (Hans Rosling, 1948~2017) : 스웨덴 의사이자 통계학자이다. 카롤린트카의과대학교수로 재직하였고 , 트렌달라이저(Trendalyzer)를 개발한 비영리 벤처 갭마인더 재단의 공동설립자이기도 하다. 빅데이터를 가장 잘 활용하는 보건 통계학자로 알려져 있다. ( 출처 : 위키백과 )

▶ 한스 로슬링의 TED 강연 모음

https://www.ted.com/search?q=hans+rosling

 

hans rosling | Search Results | TED

Conferences TED Conferences, past, present, and future

www.ted.com

Gapminder

갭마인더는 스웨덴의 비영리 통계분석 서비스이다. 유엔의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계정보를 공유한다.( 출처 : 위키백과)

▶ 최근 데이터 시각화의 잘 된 표본으로 많이 언급되고 있다.

http://www.gapminder.org

 

Gapminder

 

www.gapminder.org


 

댓글