이 포스팅은 통계개념 정리 시리즈 13 편 중 9 번째 글 입니다.
목차
다양한 확률분포에 대해 이해한다.
이산 확률 변수의 분포
대표적으로 사용하는 이산 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다.
베르누이 분포
확률 변수의 값이 성공 혹은 실패로 나타나는 경우에 따른 분포
동전을 던졌을 때, 앞면이 나오는 사건에 대한 값을 확률 변수로 잡는 경우가 해당된다. 해당 사건이 나오는 확률을 정의해야 분포가 정의된다.
\[P(X=0)=p \\ P(X=1)=q \\ 0 \le p \le 1, q=1-p\]초기하 분포
n번의 시행에서 k번 성공할 확률, 그런데 독립시행이 아닐 경우의 분포
주머니에 10개의 공이 있다. 이 때 파란공이 3개, 빨간공이 7개 이다. 이런 상황에서의 확률 실험이 공을 5번 꺼내는 실험이다. 공은 다시 넣지 않는다.(비복원 추출) 이 떄 확률 변수 X를 빨간 공이 나오는 횟수라고 할 경우, 발생하는 확률 분포이다. 이 초기하 분포를 설명하기 위해서는 총 공이 몇개가 있는지(N), 몇개를 뽑을 것인지(n), 그 때 빨간공이 나오는 개수(k) 세가지 파라미터가 필요하다.
초기하 분포의 상황에서 n이 특정수 이상으로 큰 경우 이항 분포로 가정하고 풀이한다.
\[p_X(k) = \Pr(X = k) = \frac{\binom{K}{k} \binom{N - K}{n-k}}{\binom{N}{n}}\]이항 분포
확률 변수의 값이 독립 시행의 성공 횟수로 표시되는 경우에 따른 분포
동전을 5번 던졌을 때, 앞면이 나오는 횟수를 확률 변수로 잡는 경우이다. 문제에서 알 수 있듯 해당 분포를 설명하기 위해서는 몇번 던지는지(n), 그리고 한번의 시행에서 나오는 확률 얼마인지(p)를 정의해야 한다. 두개의 파라미터를 가진다.
이항 분포는 베르누이 확률 변수의 합으로 정의되는 랜덤 변수의 분포로 정의된다.
\[\Pr(K = k) = f(k;n,p)={n\choose k}p^k(1-p)^{n-k}\]기하 분포
처음으로 성공하는 횟수를 확률 변수로 잡을 경우 나오는 분포
동전을 던지는데, 처음으로 앞면이 나오는 시행 횟수를 확률 변수로 잡을 경우 나타나는 분포이다.
\[\Pr(X = k) = (1-p)^{k-1}\,p\,\]음이항 분포
특정 횟수를 성공하기 위한 시행 횟수에 대한 분포
동전의 앞면이 10번 나오기 위해 던져야 하는 횟수를 확률 변수로 정의했을 때 나타나는 분포이다. 해당 분포를 설명하기 위해서는 몇번 성공할 것인지(k) 그리고 그 독립 시행의 확률이 얼마인지(p)를 주어진 상태에서 x를 정의하고 그에 대한 확률을 정의한다.
음이항 분포의 랜덤 변수는 기하 분포의 랜덤 변수의 합으로 정의된다.
\[b^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k}\]포아송 분포
단위 시간 안에 사건이 몇 번 발생할 것인지에 대한 분포
버스정류장에 버스가 도착한다고 하자. 이 때, 단위 시간을 10분으로 설정했을 때, 10분안에 도착하는 버스의 수를 랜덤 변수로 정의했을 때 정의되는 분포이다. 포아송 분포를 정의하기 위해 필요한 인자는, 정해진 시간 안에 사건이 일어날 횟수에 대한 기댓값($\lambda$)가 필요하다.
\[f(n; \lambda)=\frac{\lambda^n e^{-\lambda}}{n!},\,\!\]연속 확률 변수의 분포
대표적으로 사용하는 연속 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다.
지수 분포
한번의 사건이 발생하는데 까지 걸리는 시간에 대한 분포
포아송 분포에서는 단위 시간에 발생하는 횟수에 대해 궁금했다면, 이번에는 하나의 사건이 발생하는데 까지 걸리는 시간을 확률 변수로 잡는다. 이 때 발생하는 분포가 지수 분포이다. 지수 분포를 정의하기 위해서는 해당 사건이 발생하는 확률(p)가 필요하다.
\[f(x; \lambda) = \begin{cases} \lambda e^{-\lambda x} & {where } \;x \ge 0 \\ 0 & {where } \;x < 0 \end{cases}\]감마 분포
a번째 사건이 발생할 때까지 걸리는 시간에 대한 분포
음이항 분포와 매우 비슷하다. 음이항 분포가 기하 분포의 결합으로 설명되었던 것처럼, 감마 분포도 지수 분포의 결합으로 설명되는 확률 변수에 대해 표현된다.
\[x^{k-1} \frac{\exp\left(-x/\theta\right)}{\Gamma(k)\,\theta^k}\]스튜던츠 t 분포
모분산을 모를 때, 표본에 대한 분포를 사용할 때 사용한다.
사실 t분포는 추정에서 보다 정확히 사용처를 알 수 있다. 일단은, 모평균이 $\mu$이고, 모분산이 $\sigma^2$인 경우, 우리는 Z를 사용하여 이것이 표준 정규 분포를 따른다고 알고 있다.
그런데, 우리가 하는 행위는 표본을 통하여 모집단을 예측하는 행위를 하는 것이고, 그렇기 때문에 현실에서 하는 모든 행위는 모집단을 알 수 없다. 그렇기 때문에 평균은 알 수 있을 지라도 모분산을 모르기 때문에 내가 뽑은 표본의 분포가 정규 분포라 가정하고 추정을 수행할 수 없다.
이러한 문제에 대해 해결하기 위한 방법으로 모분산 대신 표본 분산을 사용하여 분포를 만들었다. 이것을 t 분포라 한다. 표본 분산을 구하는데에 있어서는 자유도가 필요하므로, t 분포를 사용하기 위해서는 자유도라는 매개변수가 필요하다.
자세한 내용은 스튜던트 t 분포 를 확인하자.
\[\frac{Z}{\sqrt{V/\nu}}\]카이제곱 분포
정규 분포 랜덤 변수의 제곱의 합으로 표현되는 랜덤 변수에 관한 분포
왜 카이제곱 분포가 필요할까? 기본적으로 카이제곱 분포는 표본의 분산에 관련된 무언가를 만들기 위해 탄생한 분포이다. 실제로 표준 정규 분포의 랜덤 변수를 제곱하여 자유도 만큼 더한 것으로 카이 제곱 분포의 랜덤 변수가 정의된다. 해당 분포는 분산의 특징을 대변한다는 특징이 있다.
\[Q = \sum_{i=1}^{k} X_i^2\]F 분포
\[F=\frac{V_1/k_1}{V_2/k_2} \sim F(k_1,k_2)\]두 확률 변수가 독립인 카이제곱 분포를 따른다고 할 때 다음의 랜덤 변수가 따르는 분포
가우시안 분포
이항 분포의 n이 늘어났을 때 근사하는 분포
가장 중요한 분포이며, 평균과 표준편차를 매개변수로 갖는 분포이다.