이 포스팅은 통계개념 정리 시리즈 13 편 중 8 번째 글 입니다.
목차
확률분포에 대해 이해한다.
왜 배우는가?
실생활에서 결국 엔지니어가 수행하는 역할은, 다양한 문제에 대해 이를 다룰 수 있는 문제로 바꾸는 것에 있다. 확률과 같이 애매하게 보이는 개념을 어떻게 수치화하여, 다룰 수 있는 문제로 바꾸는지에 대한 내용이 대부분이다. 다양한 문제에 대해 이에 맞는 분포에 대해 알고 있다면, 비슷한 문제에 대해서 이러한 내용을 적용하여 문제를 모델링 할 수 있다.
확률 변수
실험 결과들에 수치를 대응시키는 것
우리가 어떠한 실험을 관찰한다고 생각해보자. 예를 들어 동전을 3번 던지는 행위를 하고 있다. 이 때, 내가 관찰하고 싶은 것은 앞면이 몇번 나오는지에 대한 정보이다. 이럴 경우, 3번의 행위 속에 숫자에 대응되는 값은 0, 1, 2, 3으로 4가지이다. 여기서 내가 관찰하고 싶은 것, 앞면이 나오는 수, 가 확률 변수 X가 된다. 이렇게 되면 X는 수치적으로 대응된다. 이 때 발생하는 0, 1, 2, 3은 사건이라 부른다.(event)
이산 확률 변수
내가 관찰하고 싶은 확률 변수가 이산적으로 나오게 될 경우 이산 확률 변수이다. 위의 예에서 0, 1, 2, 3과 같이 값이 이산적이므로 위의 예는 이산 확률 변수라 할 수 있다.
확률 질량 함수
이산적으로 나온 확률 변수에 대한 확률이 정의되고, 이를 나타내는 함수가 있을 때 이것을 확률 질량 함수라 말한다.
연속 확률 변수
내가 관찰하고 싶은 확률 변수가 연속적일 경우 연속 확률 변수라 말한다. 예를 들어 버스한 대가 처음으로 도착했을 때 시간이 궁금하다고 하면(즉 확률 변수가) 이는 연속적으로 나오게 될 것이다.
확률 밀도 함수
연속적으로 나온 확률 변수에 대해 넓이를 확률로 정의하는 함수를 정의했다면, 이를 확률 밀도 함수라 한다.
확률 밀도 함수는 히스토그램으로 연속 변수에 대한 상대 빈도를 나타내면서 만들어진 개념이다. 기본적으로 히스토그램은 구간을 가지고, 그 구간에 대한 빈도를 나타내는 그래프이다.
연속 확률 변수에 대해서 하나의 값에 대한 확률을 구하면 0이다. 무한대에 가까운 실수 길이에 대해 하나의 점의 확률을 구하는 것이기 때문에 0에 수렴한다. 그렇기 때문에 히스토그램을 사용하여, 구간에 대한 발생 빈도를 나타내는 것이 하나의 방법이다.
그렇다면 우리는 어떠한 구간에 대한 확률을 정의할 수 있다. 즉, 넓이와 같은 개념에 해당하는 것이 확률이고, 이 넓이를 기반으로 확률을 정의하기 위해서는 하나의 값은 밀도와 같은 의미를 가져야 한다. 이러한 점에서 정의된 함수를 확률 밀도 함수라 한다.
이 때, 하나의 함수값, 즉 밀도와 대응되는 값을 우리는 우도(likelyhood)라 한다.
기댓값과 평균
기댓값과 평균은 기본적으로 같은 의미를 가진다. 그런데 나는 약간의 다른 견해를 가지는 편인데, 기본적으로 기댓값은 표본, 또는 새로운 통계량에 대한 평균에 대해 말하는 경향이 있다. 하지만 평균은 아무래도 모집단이 가지는 실제값을 나타내는데 더 많이 사용하는 경향이 있다.
결합 확률 분포
지금까지 우리는 하나의 확률 변수에 대한 확률을 어떻게 구하고 정의하는지에 대한 얘기를 했다. 그런데, 사실 두가지 확률 변수에 대한 확률이 발생할 수 있다. 예를 들어 확률 실험이 주사위를 하나 던지고 동전을 하나 던지는 실험이라 하자. 이 때 확률 변수 X를 주사위가 나오는 눈을 수, Y를 동전이 앞이 나오는 수라고 할 경우에 X, Y 상황에 따른 확률이 정의 된다. 이렇게 두가지 변수에 대해 확률이 정의되는 함수가 있을 때, 이를 결합 확률 분포라 한다.