이 포스팅은 빅데이터분석기사 - 필기 시리즈 10 편 중 6 번째 글 입니다.

  • Part 1 - 01: 빅데이터의 이해
  • Part 2 - 02: 데이터 분석 계획
  • Part 3 - 03: 데이터 수집 및 저장 계획
  • Part 4 - 04: 데이터 전처리
  • Part 5 - 05: 데이터 탐색
  • Part 6 - This Post
  • Part 7 - 07: 분석 모형 설계
  • Part 8 - 08: 분석 기법 적용
  • Part 9 - 09: 분석결과 해석 및 활용
  • Part 10 - 10: 분석모형 평가 및 개선
▼ 목록 보기

기술 통계 (Desciptive Statistics)

  • 확률 통계적으로 정리 및 요약
  • 평균
  • 중위수
  • 최빈수
  • 범위
  • 분산
  • 표준편차
  • 표준오차
  • 분포
    • 첨도
    • 왜도
  • 상관분석
    • 피어슨 상관계수 - 수치 변수
    • 카이제곱 검정 - 명목 변수
    • 스피어만 순위상관계수 - 순서 변수
  • 회귀 분석
    • 설명력 - $R^2$
    • 전제조건
      • 선형성
      • 등분산성
      • 독립성
      • 비상관성
      • 정규성
    • 변수선택 방법
      • 전진
      • 후진
      • 단계
  • 분산 분석(ANOVA)
    • 집단간 비교를 수행
    • F 분포를 이용하여 가설 검정 - 집단 내 분산 대비 집단 간 분산의 크기를 나타내는 값
    • 일원 분산 분석
      • 독립변수 1개, 종속변수 1개
    • 이원 분산 분석
      • 독립변수 2개, 종속변수 1개
    • 다변량 분산 분석
      • 종속변수 2개 이상
    • 공분산 분석
  • 주성분 분석(PCA)
    • 원래 변수보다 적은 수의 주성분을 통해 해석
  • 다변량 기법

표본 추출

  • 단순 무작위 추출
    • 규칙없이 표본 추출
    • 100개의 전구에서 무작위로 10개 추출
  • 계통 추출
    • 일정한 간격으로 추출
    • 100명 사람에게 번호표 주고, 끝자리 7인 사람들 선정
  • 층화 추출
    • 계층으로 나누고, 그 계측에서 무작위 추출
    • 계층은 내부적으로 동질적, 외부적으로 이질적
    • 여론 조사에 있어 조사 지역을 도별로 나누고, 각 도에서 100명씩 무작위 선정
  • 군집 추출
    • 여러 군집으로 나누고 추출
    • 군집 성질 고려하지 않음
    • 간격도 중요하지 않음
    • 100개 전구에 무작위로 RGB 칠하고 파란색 모두 추출

확률 분포

  • 이산확률분포
    • 포아송 분포 - 특정 시간동안 일어나는 사건의 수
    • 베르누이 분포
    • 이항 분포
  • 연속확률분포
    • 정규분포
    • 표준정규분포
    • t-분포
      • 평균의 해석에 사용
      • 모집단은 정규 분포, 모표준편차는 모름
      • 30이하의 개수에 대해서 사용
    • 카이제곱 분포
    • F-분포

표본 분포

image

모집단에서 추출된 표본을 관찰하여 나온 통계량을 기반으로 모집단에서 관찰하고 싶은 모수를 추정한다.

  • 모집단
  • 모수(parameter)
  • 통계량
  • 추정량
  • 표준편차
  • 표준오차 - 통계량의 변동 정도

표본 조사

표본을 모집단에서 뽑는 과정을 말한다.

  • 표본오차
    • 추출한 표본이 모집단을 대변하지 못하여 발생하는 오차
  • 비표본오차
    • 조사 과정에서 발생하는 오차
  • 표본편의
    • 표본이 가지는 통계량이 모수에 비해 치우친 정도

표본 분포 관련 법칙

  • 큰수의 법칙
    • 데이터를 많이 뽑으면 표본평균의 분산은 0에 가까워짐
  • 중심 극한 정리
    • 표본의 개수가 커지면, 모집단 분포와 상관없이 표본평균의 분포는 정규분포에 근사

표본 분포 유형

  • Z-분포
  • T-분포
  • 카이제곱 분포
  • F-분포 - 분산의 비율

추론 통계

추정을 통해 모집단을 이해하려는 시도

점추정

  • 불편성
  • 효율성
  • 일치성
  • 충족성

구간 추정

  • 신뢰수준
  • 신뢰구간

가설 검정

  • 귀무가설 - 기존의 통념
  • 대립가설 - 내가 증명하고 싶은 가설

p-값과 유의 수준을 비교하여 귀무 가설 또는 대립 가설을 채택한다.

검정 종류

  • 양측 검정
    • 같다, 아니다로 검증
  • 단측 검정
    • 모수를 기준으로 (작다, 아니다), (크다, 아니다)와 같이 귀무 가설과 대립 가설을 설정한다.

오류 종류

  • 제 1종 오류
    • 귀무 가설이 실제로 맞으나, 대립 가설을 채택한 경우
  • 제 2종 오류
    • 대립 가설이 실제로 맞으나, 대립 가설을 기각한 경우

용어 종류

image

  • 왼쪽부터 순서대로
  • 신뢰수준 - $(1-\alpha)$
  • 유의수준 - $\alpha$
  • 베타수준 - $\beta$
  • 검정력 - $(1-\beta)$