본문 바로가기
통계학 공부

12. 확률과 통계

by 에쓰지 2023. 4. 22.

(1) 확률과 통계

 

   확률은 불확실성을 다루기 위한 수학적 도구이고, 통계는 데이터를 수집, 요약, 분석하여 패턴을 파악하는 학문이라 할 수 있다. 이러한 이유로 확률과 통계는 밀접한 관계를 가지고 있다.

   먼저, 확률은 통계의 기초라 할 수 있다. 데이터를 분석하고 추론하기 위해서는 데이터가 어떤 분포를 따르는지, 그 분포의 모수는 무엇인지 등을 알아야 한다. 이때 확률 분포를 사용하여 데이터를 모델링하고, 모수를 추정하게 된다.

   반대로, 통계는 확률을 응용하는 분야라 할 수 있다. 확률 분포를 사용하여 데이터를 모델링하고 모수를 추정한 후, 이를 토대로 가설 검정, 신뢰 구간 추정 등을 수행한다. 이러한 통계적 방법을 통해 데이터의 패턴과 관련된 문제를 해결할 수 있다.

   따라서 확률과 통계는 각각 독립적인 분야가 아니라 서로 보완적인 관계를 가지고 있다. 확률 분포를 통해 데이터를 모델링하고, 이를 기반으로 통계적 추론을 수행함으로써 데이터 분석의 정확성과 신뢰성을 높일 수 있다. 이러한 시너지 효과를 이용하여, 확률과 통계를 함께 사용하여 데이터 분석 문제를 해결하는 경우가 많다.

▶ 확률과 통계를 비교해서 설명하자면,

통계 Data가 주어져 있고, 모델을 예측하는 것이다.

  •  관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)를 수집하고
  • 수집된 표본을 정리,요약,분석하여 표본의 특성을 파악한 후
  • 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공한다.
  • 모집단II 를 추론으로 파악하게 된다.

확률 알려진 모델이 주어져 있는 상황에서 Data를 예측하는 것이고,

  • 모집단은 이미 알려진 모델이어야 한다.
  • 즉, 사용할 수 있는 자료들을 최대한 정리해서 필요한 정보를 수집하는 것이 통계이고,
  • 그 정보에 기초해서 확률을 계산하고 그것을 판단의 근거로 삼는 것이 '확률'이다.

▶ 통계학에서 확률의 역할 

통계학에서 확률은 불확실성과 불확실한 사건에 대한 추정과 예측을 가능하게 해주는 핵심적인 개념이다.

불확실성을 수량화(수치화)하는 방법 중 하나이다. 예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 0.5입니다. 이것은 불확실한 사건에 대해 확률이라는 수치를 부여한다. 혹은  어떤 사건이 일어날 가능성의 정도를 나타내는 숫자로, 0 1 사이의 값을 가진다. 이론적으로 0 가까울수록 일어날 가능성이 낮고, 1 가까울수록 일어날 가능성이 높다. 이처럼 수치화를 통하여 통계학적인 분석을 가능하게 한다.

통계학에서 데이터를 수집하고 분석하는 과정에서 확률 분포를 가정하는 것이 중요하다. 데이터 분석에서는 종종 확률 분포를 이용하여 확률 변수의 분포를 모델링하고, 해당 분포를 이용하여 통계적 추론을 수행한다. 예를 들어, 정규 분포를 가정하여 데이터 분석을 수행하는 경우가 많다.

통계학에서는 확률을 이용하여 데이터를 분석하고 모델링하며, 이를 통해 예측과 결정을 내리는 다양한 응용이 가능하다.

확률과 통계는 왜  필요할까 ?

결론부터 말하자면,  합리적인 판단을 하기 위해서 이다.

어떤 행동을 하면 어떤 결과가 될 지 확실히 알고 있는 이런 문제에서는 확률과 통계의 지식이 필요 없이 결정할 수 있다하지만 불확실한 상황에서 합리적인 판단을 하기위해서는 통계와 확률이 필요한 것이다불확실한 상황에서 막연하게 판단을 내리는 것보다는 자료와 확률에 근거해서 판단을 내리는 것이 합리적이지 않을까?

물론 확률을 정확하게 계산하기 어려운 경우도 많지만 확률을 근거로 삼는다는 사고방식 자체는 합리적인 판단을 하기 위해 꼭 필요한 것이다. 이런 이유로 확률과 통계는 함께 다니는 것이다.

 

(2) 확률(Probability) 이란?

   확률(probability) 이란 어떤 사건이 발생할 가능성이 얼마나 되는지를 나타내는 01 사이의 수치적 측도이다.

  확률을 언급하기 위해서는 확률실험이 전제된다또한 표본공간과 사건이 설정되어야 한다.

  확률 실험의 전제조건은 시행하기 전에 발생할 수 있는 모든 결과는 알 수 있어야 하고 실험을 하기 전까지 이들 결과 중 어떤 것이 발생할 것인지에 대해 확실하게 예측할 수 없어야 한다. , 불확실성이 전제조건이다.

▶ 확률실험(random experiment) : 위의 두 성질을 가지는 실험

▶ 표본공간(sample space, Ω ) : 확률실험에서 발생 가능한 모든 결과들의 집합

▶ 사건(event) : 표본공간 내에서의 관심 부분집합

 

 예시 : 확률이 발생하는 상황 ( 확률실험 )

  1.   주사위 던지기
  2.   앞면이 나올 때까지 동전 던지기
  3.   휴대전화의 수명

▶ 표본공간

  1.  {1,2,3,4,5,6}
  2. 앞면을 H, 뒷면을 T이라고 하면, { H ,TH, TTH, ... }
  3.  x를 수명(단위 일)이라고 하면, { x | 0 <=x }

▶ 사건 ( event )

  1. 홀수가 나오는 경우
  2.  3번 이하로 던지는 경우
  3. 10년 이상 사용하는 경우

⇒ 사건들은 모두 집합형태를 띤다. 그런 탓에 확률을 언급할 때 집합을 통해 설명하는 것이다.

 

(3) 확률(Probability) 을 보는 두 가지 견해

 

도수이론 (frequentist view) 

    확률은 한 시행을 동일한 조건 하에서 독립적으로 반복할 때 그 사건이 일어날 것으로 예측되는 횟수의 전체 시행횟수에 대한 백분율이다.

   반복적으로 실험을 행하고 그 결과를 관찰함으로써 확률을 계산하는 방식이다. 이론상으로는 무한히 많은 반복을 통해 정확한 확률을 구할 수 있지만, 현실적으로는 한정된 표본에서 추정한 확률을 사용한다.

주관적 견해(subjective view)

    사건에 대한 주관적 확신의 정도가 확률이다. 이는 반복시행 여부와 관계없이 정의된다.

    개인의 주관적인 믿음, 경험 등을 바탕으로 확률을 계산하는 방식이다. 예를 들어, 병원에서 어떤 환자의 치료 성공률을 예측할 때, 의사나 전문가의 경험과 지식을 바탕으로 확률을 추정하는 방식이다.

▶  이러한 두 가지 견해는 각각의 장단점이 있다. 도수이론은 실험적으로 측정 가능하고, 신뢰성이 높은 확률을 계산할 수 있다. 반면에 주관적 견해는 개인의 경험과 지식을 바탕으로 빠르게 확률을 계산할 수 있으며, 일부 상황에서 더 적합한 방법일 수 있다하지만 현대 확률론에서는 두 견해를 조합하여 사용하는 경향이 있다. 예를 들어, 주관적인 믿음을 바탕으로 시작한 뒤 도수이론을 사용하여 추정한 확률을 검증하는 방식으로 사용될 수 있다.

(4) 확률(Probability)의 기본 법칙

   ①  사건(event) A 가 일어날 확률을 P(A) 라고 했을 때,

         즉, 확률은 0%부터 100% 사이의 값을 가진다.

  ②  여사건의 법칙

        A의 여사건이란 A가 일어나지 않을 확률이다.

       어떤 사건 A가 일어날 확률이 P(A)이면 그 사건이 일어나지 않을 확률은 1 - P(A)이다.

  ③ 덧셈 법칙

        P(A or B), P(A또는B) : 사건 중 적어도 하나의 사건이 일어날 확률

        P(A and B), P( A 그리고 B) : 두 사건이 함께 일어날 확률

       덧셈 법칙 :

  ④ 배반 사건 (disjoint, mutually exclusive)

        임의의 두 사건 A B가 공통부분이 없는 경우를 말한다.


◈ 예제

어느 학교 신입생 120명의 동아리 가입 여부를 조사한 결과, 60명은 테니스부, 56명은 학술동아리, 42명은 밴드부에 가입한 것으로 나타났다. 이 중 34명은 테니스부와 학술동아리에 모두 가입하였고, 20명은 학술동아리와 밴드부를 동시에 가입하였으며, 16명은 테니스부와 밴드부에 모두 가입하였다. 또한 6명은 세 가지 동아리에 모두 가입한 것으로 조사되었다. 이러한 조사 결과를 바탕으로, 아래 학생 수를 계산하여라.
  • S (표본공간) : 120 명
  • 사건 A ( 테니스부 ) : 60 명
  • 사건 B ( 학술동아리) : 56 명
  • 사건 C ( 밴드부 ) : 42 명
  • A ∩ B : 34 명
  • B ∩ C : 20 명
  • A ∩ C : 16 명
  • A ∩ B ∩ C : 6 명
  • A ⋃ B ⋃ C = 60+56+42-34-20-16+6 = 94

     1. 가지 동아리 중 어느 곳에도 가입하지 않은 학생의 수를 구하라.

S - (A B C) = 120 - 94 = 26

     2. 학술동아리에 가입하였지만, 테니스부나 밴드부에는 가입하지 않은 학생의 수를 구하라.

B - (A B + B C - A B C) = 56 - ( 34+20 - 6) = 8

    3. 테니스부와 학술동아리는 모두 가입하였으나, 밴드부에는 가입하지 않은 학생의 수를 구하라.

(A B) - (A B C) = 34 - 6 = 28


 

댓글