본문 바로가기
통계학 공부

25. 이산확률분포 - 기하분포 & 음이항분포

by 에쓰지 2023. 5. 7.
확률분포의 분류 
▷ 이산확률분포  : 베르누이 분포, 이항분포, 초기하분포, 포아송분포, 기하분포, 음이항분포, 다항분포 등 
▷ 연속확률분포  : 정규분포, t 분포, 카이제곱분포, F 분포 등

기하분포와 음이항분포는 모두 이항분포에서 파생된 분포로, 이항분포와 관련된 확률문제를 해결하는 데 사용된다.

기하분포는 이항분포에서 성공확률이 일정하고 시행횟수가 무한히 많아지는 경우, 즉 시행횟수가 많아지면서 확률이 점점 작아지는 경우를 다루는 분포이다. 예를 들어, 동전을 던져서 앞면이 나올 확률이 0.5로 일정하고, 앞면이 처음으로 나오는 시행횟수를 기록한다면, 이 시행횟수가 따르는 분포가 기하분포이다. , 기하분포는 단일 베르누이 시행에서 첫 번째 성공까지 시행한 횟수가 따르는 이산확률분포이다.

음이항분포는 이항분포에서 시행횟수가 일정하고 성공확률이 일정한 경우를 다루는 대신, 시행횟수는 일정하지 않고 성공횟수가 일정한 경우를 다루는 분포이다. 예를 들어, 동전을 던져서 앞면이 나올 확률이 0.5로 일정하고, 세 번째 앞면이 나올 때까지 동전을 던지는 시행횟수를 기록한다면, 이 시행횟수가 따르는 분포가 음이항분포이다. , 음이항분포는 단일 베르누이 시행에서 성공횟수가 일정할 때 성공까지 시행한 횟수가 따르는 이산확률분포이다.

 

(1) 기하분포 ( Geometric Distribution)

 

기하분포는 성공할 확률이 p 베르누이 시행을 성공할 때까지 시행하는 경우 실패(시행) 횟수의 분포이다.

​▶ 표본공간

  • 성공을 S, 실패를 F 라 했을 때,
  • 표본공간 Ω = { S, FS, FFS, FFFS,...}

확률질량함수

  • 성공할 확률 p , 실패할 확률 1-p 라 할 때,

  • 여기서 x는 실패한 횟수를 뜻한다.

표현식 : X ~ Geo(p)​

시행횟수 Y 확률질량함수

  • 시행횟수는 실패한 횟수에 1을 더하면 된다. 시행횟수 Y = X+1 라 표현할 수 있다.

등비급수 (geometric series )

  • 기하분포는 제 1항이 p이고 공비가 1-p 인 등비급수 형태이다.​
  • 등비급수란 등비수열의 부분합을 무한으로 보낸 개념이다.
  • 등비수열(기하수열)이란 각 항이 초항과 일정한 비를 가지는 수열을 말한다.
  • 등비수열의 첫항을 a, 공비를 r 이라 할 때 등비수열의 n번째 항은,

  • 따라서, n까지 더한 합인 등비급수(기하급수)를 아래와 같이 표현할 수 있다.

  • 등비급수의 합은

 

▶ x 번째 실험(실행횟수) 이전에 성공할 확률은 ?

  • 우선 x번째 실험에 성공했다는 것은 x-1번 실패할 확률과 같다. ⇒ P(Y ≤ x ) = P(X ≤ x-1)
  • 각 확률질량함수의 합을 아래와 같이 표현할 수 있다.

  • 이는 첫 항이 p이고 공비가 1-p 인 등비급수 형태이다.
  • 등비급수의 합을 이용하여 구하면,

즉,

  • 반대로 P(X≥x) 인 경우는

무기억성 (memoryless)

  • 무기억성이란 처음 시작할 때 확률이 x번 실패했다 하더라도 지금 다음 시행에서 성공할 확률은 이 앞에 실패한 것은 기억하지 않고 그냥 처음 시행 때와 똑같다라는 것이다.
  • 즉, 동전 던지기에서 5번 연속 뒷면이 나왔다고 하더라도 6번째가 앞면이 나올 확률은 0.5 이다.​
  • P(X≥x) 는 x+1번째 시행이후에 성공할 확률을 의미한다. 이것은 x번째까지 실패할 확률과 같은 의미이다.

  • x번째까지 실패했다고 할 때, 다음 x+1번째 시행에서의 성공확률은 ?

          ⇒ "~ " 라는 것은 조건부 확률이라는 의미 P(X=x | X≥x) 표현할 있다.

          ⇒ x+1번째 시행에서의 성공확률은 처음 확률 p 이다.

▶ x 번째 실험(실행횟수) 이전에 성공할 확률은 ?

  • 실행횟수 Y , 실패한 횟수 X 라 할 때

               ⇒ 실행횟수 기준으로 봤을 .

 

​◈ 예제 : 동전 던지기 - 앞면이 나올 때까지 던지는 실험( 앞면 : 성공, 뒷면 : 실패 )

    2번이내에 성공할 확률은 ?

               ⇒ 실행횟수 2번이내 실패횟수 1번의 확률을 구하는 것임.

  • p = 1/2, 실행횟수 : Y , 실패횟수 : X , Y =X+1

              ⇒ 2번이내에 성공할 확률은 0.75 이다.​

     P(Y≤y) ≥ 0.9을 만족하는 y는?

           ⇒ 90% 이상 성공률을 보이는 최소 실행횟수는 ?

             ⇒ 4회이상 실행하면 90%이상 앞면이 나온다.

 

무한 등비급수의

기대값

  • X : 실패 횟수

  • 이 식은 첫항이 p(1-p) , r 은 1-p 인 무한등비급수이다.

         ⇒ 기대값은 실패할 확률에서 성공할 확률을 나눈 값이다.

  • Y : 실행 횟수 = X+1

 

동전던지기의 앞면이 나올 실행횟수 기대값은 ?

        ⇒ 게임을 끝내려면 평균 2회를 실시한다.​

기하분포는 성공횟수가 아닌 성공을 위한 실행횟수 관심을 가질 주로 이용된다.

 

(2) 음이항분포 (Negative Binomial Distribution)

 

음이항분포는 성공할 확률이 p 베르누이 시행을 r 성공할 때까지 시행하는 경우 실패(시행) 횟수의 분포이다.

▶ X : 실패횟수 , r : 성공횟수 , Y : 시행횟수 ( Y =X+r)

  • Y = y 라 하면, y번째는 성공 S (시행횟수 기준)
  • y-1번째까지 결과는 r-1개의 성공 S, y-r개의 실패 F
  • y-1번째까지 결과를 일반화하면,

                    ⇒ y-1번째까지는 이항분포를 형성한다.

  • 위 식에 y의 성공확률 p를 곱하면 y 번째의 확률을 구할 수 있다.

 표현식 : Y ~ NB(r, p)

X = x 하면, x+r번째는 성공 S (실패횟수 기준)

  •  x+r-1 번째까지 결과 : r-1개의 S , x개의 F

 

예제 : 가위바위보

  • 5 명과 차례로 가위바위보 게임을 한다. 비기거나 지면 계속 게임을 진행하고 이기면 다름 사람과 게임을 한다.

 ▷ 게임이 완료될 때까지 10 이하로 가위바위보를 확률은 ?

  • ​p = 1/3 ( 승, 무, 패 )
  • Y ~ NB( 5, 1/3)
  • P (Y ≤ 10 ) = ?

 

기대값

  •  X : 실패횟수 , r : 성공횟수 , Y : 시행횟수 라 할 때, 기대값은 각각의 합이라 할 수 있다.
  • 베르누이 시행이므로 각각은 독립이다.

 

※  음이항분포는 계수자료 분석에 주로 이용된다. 포아송 분포의 대안으로 사용가능하다.

  •     포아송 분포는 E(X) = λ = Var(X) 이므로 평균과 분산의 차이가 심하면 적용하기 어렵다.
  •     따라서, 이런 경우 음이항분포가 대안으로 사용할 수 있다.

댓글