이 포스팅은 빅데이터분석기사 - 필기 시리즈 10 편 중 2 번째 글 입니다.
목차
분석 문제 정의
하향식 (Top down)
문제가 이미 정해져 있는 경우를 말한다.
- 문제 탐색
- BM 기반 문제 탐색
- 범위 확장(거시적, 경쟁사, 시장, 역량)해서 기회 탐색
- 외부 참조 벤치마킹
- 분석 유스케이스 정의
- 문제 정의
- 해결방안 탐색
- 타당성 검토
- 선택
상향식 (Bottom up)
디자인적 사고 접근을 사용한다. 일반적인 특징을 관찰하고 문제를 생성하는 방법이다.
대상별 분석 기획 유형
- 최적화
- 분석 대상도 알아, 어떻게 풀지도 알아. 그럼 최적화 해야지.
- 솔루션
- 분석 대상은 알아, 근데 어떻게 풀지 모르겠다. 그럼 풀 방법을 생각해야지.
- 통찰
- 분석 대상을 모르겠어. 푸는 방법은 많이 알아. 그럼 문제를 통찰해서 이해해야지.
- 발견
- 분석 대상도 모르겠고 푸는 방법도 모르겠다. 발견부터 해보자.
과제 우선 순위 평가
- 시급성(가치)에 중점을 둘 경우
- 3 -> 4 -> 2
- 난이도에 중점을 둘 경우
- 3 -> 1 -> 2
데이터 분석 방안
데이터 유효성
- 데이터 정확성
- 정확성
- 사실성
- 적합성
- 필수성
- 연관성
- 데이터 일관성
- 정합성
- 일치성
- 무결성
데이터 활용성
- 데이터 유용성
- 충분성
- 유연성
- 사용성
- 추적성
- 데이터 접근성
- 접근성
- 데이터 적시성
- 적시성
- 데이터 접근성
- 보호성
- 책임성
- 안정성
정규 표현식
+
- 1개 이상의 문자열 매칭^
- 시작*
- 0개 이상의 문자열 매칭$
- 종료분석 절차
- 분석 기획
- 비즈니스 이해
- 프로젝트 정의, 계획
- 위험 계획 수립
- 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 검증
- 데이터 분석
- 분석용 데이터 준비 - 수집된 것 중에서 필요한 것만 빼옴
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영 방안 수립
- 시스템 구현
- 설계 및 구현 - UI, 시스템 구축
- 시스템 테스트
- 평가 및 전개
- 모델 발전 계획 수립
- 프로젝트 평가 보고
분석 방법론 유형
- KDD
- 프로파일링 기술 기반
- 데이터 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 데이터 평가
- CRISP-DM
- 유럽연합에서 시작
- 얘는 이해가 먼저야
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
- SEMMA(Sampling Exploration Modification Modeling Assessment)
- 모델링 전에 수정
- 샘플링
- 탐색
- 수정
- 모델링
- 검증
데이터 확보 계획
- 목표 정의
- 요구사항 도출
- 예산안 수립 - 돈이 있어야 하는거다.
- 계획 수립
데이터 수집 프로세스
- 수집 데이터 도출
- 목록 작성
- 데이터 소유기간 파악 및 협의 - 일단 되나 확인
- 데이터 유형 분류 및 확인
- 수집 기술 선정
- 수집 계획서 작성 - 서류는 좀 나중에
- 수집 주기 결정 - 왜 주기를 그다음에 하는지 모르겠지만 이건 외워
- 데이터 수집 실행
빅데이터 요구사항 분석 절차
- 요구사항 수집
- 요구사항 분석
- 요구사항 명세
- 요구사항 검증