이 포스팅은 통계개념 정리 시리즈 13 편 중 2 번째 글 입니다.

  • Part 1 - 01: 주요 개념
  • Part 2 - This Post
  • Part 3 - 03: 변동성의 척도
  • Part 4 - 04: 상대 위치와 boxplot
  • Part 5 - 05: 선형관계의 척도
  • Part 6 - 06: 표본 추출 방법
  • Part 7 - 07: 확률
  • Part 8 - 08: 확률 변수
  • Part 9 - 09: 다양한 확률 분포
  • Part 10 - 10: 정규 분포
  • Part 11 - 11: 통계적 추론
  • Part 12 - 11: 표본 분포
  • Part 13 - 12: 가설 검정
▼ 목록 보기

데이터의 중심을 나타내는 척도에 대해서 배워본다.

평균 (mean)

평균은 대표적으로 집단의 중심위치를 나타내는 척도로 사용된다.

이 평균에는 보통 3종류가 사용된다. 각각에는 어떤 기하적의미가 있으며, 데이터를 보고 어떠한 형태인지를 인지하고 그에 맞는 척도로 판단하는 것이 중요하다.

산술 평균

\[x = \frac {a+b} 2\]

산술 평균은 보통 평균이라고 불리는 가장 대표적인 방법이다. 하지만 이 수식을 보면, 각각의 $x_i$에 대해 같은 가중치로 내분점을 구하는 식과 같다. 그렇다면 각각의 $x_i$에 대해 같은 가중치이기 때문에 $x_i$가 가지는 값에 민감하게 값이 변하게 된다.

즉, 만약 $x_i$의 원소중 값이 튀는 아웃라이어가 포함되어 있는 경우, 평균은 집단의 중심을 대변하기 어렵게 된다. 평균은 아웃라이어에 민감하다. 이점을 꼭 기억하자. 다른 말로 하면, 큰 값에 가중치를 준다. 라고 생각해도 좋다.

기하 평균

\[x = \sqrt {ab}\]

앞에서 얘기한 산술 평균은 각각의 $x_i$ 값이 개수, 값과 같은 column일 때 사용가능하다. 그 이유는, 값이나 개수는 더했을 때 어떠한 의미를 가지기 때문이다. 하지만, 만약 $x_i$ 가 상승률, 감소율과 같은 확률 값이면 어떻게 할까? 만약 첫째날 100%의 증가율, 둘째날 -50%의 증가율을 보였다면, $x(1+1)(1-0.5) = x$ 로 둘째날 까지의 증가율은 0이다. 당연히 평균도 0이다. 하지만 산술 평균으로 계산한다면 이 값은 0.25로 증가한다는 결론이 난다.

이런 경우 우리는 첫째날, 둘째날의 확률을 곱하여 판단하는 것이 옳다는 것을 알고 있다. 이렇게 곱하는 연산이 어떤 중요한 의미를 가지는 경우 우리는 기하 평균으로 해당 분포의 중심을 잡는 것이 옳다.

조화 평균

\[x = \frac {2 \cdot a \cdot b} {a+b}\]

역수의 산술평균의 역수. 수식적으로 의미를 뜯어보면, 역수를 취한다는 것은 결국 작은 수를 크게, 큰 수를 작게 만들겠다는 의미로 볼 수 있다. 그 다음에 산술평균을 취한다는 것은, 결국 작은 수에 가중치를 준 상태로 값을 구하겠다는 의미이고, 원래 차원을 맞춰주기 위해 다시 역수를 취한다.

즉, 작은 수에 가중치를 준 평균으로 볼 수 있다.

세 평균 정리

image

두개의 수를 막대기로 생각했을 때, 산술 평균은 두 막대기의 크기의 내분점을 구하는 것과 동일하다. 그렇기 때문에 큰 막대기가 엄청 커지면 그게 맞춰 값도 커지게 된다.

조화 평균은 작은 수에 가중치를 주어 구하기 때문에, 항상 작은 수보다 작은 지점에서 평균이 구해지게 된다.

기하 평균은, 두 막대기를 각각 한 변으로 잡았을 때 면적을 만족하는 정사각형의 한 변의 길이와 동일한 길이가 책정된다. 이 값은 산술, 기하, 조화 평균의 관계에 의해 산술 평균보다는 작고, 조화 평균보다는 큰 값을 가진다.

중앙값

순서 통계량으로, 순서대로 세었을 때 중앙에 있는 값을 의미한다.

중앙값의 핵심은 아웃라이어에 민감하지 않다는 것이다. 따라서 사용하기 편리하다. 하지만, 계산 상 거리를 기반으로 한다는 점에서 (절댓값) 추가적인 무언가를 도출할 때 수학적으로 어려운 점이 있다. 따라서 아웃라이어를 제거한 평균을 사용하는 것이 좀더 옳지 않을까 생각한다.

최빈값

가장 많이 나온 숫자

정의에서 알 수 있듯, 이 값은 범주형에서 의미가 있다.

분포에 따른 평균, 중앙값, 최빈값의 위치

다운로드

분포가 대칭일 경우에는 세값이 동일하다.

다운로드 (1)

하지만 비대칭일 경우, 중앙값은 평균보다 오른쪽에 있을 수 밖에 없다. 숫자를 세는 행위이기 때문이다.