이 포스팅은 빅데이터분석기사 - 필기 시리즈 10 편 중 5 번째 글 입니다.

  • Part 1 - 01: 빅데이터의 이해
  • Part 2 - 02: 데이터 분석 계획
  • Part 3 - 03: 데이터 수집 및 저장 계획
  • Part 4 - 04: 데이터 전처리
  • Part 5 - This Post
  • Part 6 - 06: 통계 기법 이해
  • Part 7 - 07: 분석 모형 설계
  • Part 8 - 08: 분석 기법 적용
  • Part 9 - 09: 분석결과 해석 및 활용
  • Part 10 - 10: 분석모형 평가 및 개선
▼ 목록 보기

데이터 탐색 개요

  • 분석전 그래프, 통계 방법을 통해 직관적으로 파악

EDA

  • Resistance(저항성)
    • 오류값이 있어도 영향을 적게 받음
    • 평균보다 중앙값
  • Residual(잔차값)
    • 경향으로 부터 얼마나 벗어났는지 파악
  • Re-expression(자료 재표현)
    • 데이터 변환을 통해 구조 파악
  • Graphic Representation(현시성)
    • 데이터 시각화

개별 변수 탐색 방법

  • 범주형 데이터
    • 명목 척도, 순위 척도
    • 빈도수, 최빈값, 비율, 백분율
    • 막대형 그래프
  • 수치형 데이터
    • 등간 척도, 비율 척도
    • 평균, 분산, 표준 편차, 첨도, 왜도
    • 박스 플롯, 히스토그램

다차원 데이터 탐색 방법

  • 범주-범주
    • 막대형 그래프
  • 수치-수치
    • 산점도
    • 공분산
    • 피어슨 상관계수 - 방향, 강도
  • 범주-수치
    • 박스 플롯

상관 관계 분석

  • 산점도
  • 공분산
    • 강도는 나타낼 수 없음
    • 방향은 알 수 있음
  • 상관계수
    • 방향성과 강도 알 수 있음
    • -1~1의 값
  • 수치적 데이터 - 피어슨 상관계수
  • 순서적 데이터 - 스피어만 상관 분석
  • 명목적 데이터 - 카이제곱 검정

기초 통계량 추출 및 이해

  • 중심 경향성
    • 평균 - 이상값에 치우치는 경향
    • 중위수
    • 최빈값
  • 산포도
    • 범위 - (최댓값-최솟값)
    • 분산
    • 표준편차
    • 변동계수(CV) - $\sigma \over E(X)$
    • 사분위수 범위 - (Q3-Q1)
  • 분포
    • 왜도 - 치우친 정도
      • 값 < 0 -> 꼬리 왼쪽
      • 값 > 0 -> 꼬리 오른쪽
    • 첨도 - 뾰족한 정도
      • 값 = 0 - 정규분포
      • 값 < 0 - 퍼짐
      • 값 > 0 - 뾰족함

시각적 데이터 탐색

image

  • 히스토그램
    • 막대 붙어 있음
    • 가로축은 수치형 데이터
    • 넓이는 일정
  • 막대형 그래프
    • 막대 떨어져 있음
    • 가로축 수치형 아니어도 됨
    • 넓이는 다를 수 있음
  • 박스 플롯
  • 산점도

시공간 데이터 탐색

image image image

  • 코로플레스 지도(등치지역도)
    • 크기에 따라 색을 다르게
    • 지역 크기는 그대로
  • 카도그램(변량비례도)
    • 값에 따라 지도 면적이 왜곡됨
  • 버블 플롯맵