1장. 데이터 분석 개요

2021. 7. 21. 02:21Adsp

1절. 데이터 분석 기법의 이해

 

1. 데이터 처리

데이터 분석: 통계기반이지만, 통계지식 및 복잡한 가정이 상대적으로 적은 실용적 분야

 

데이터웨어하우스(DW), 데이터마트(DM, DW로부터 생성됨): 데이터 저장소

DM과 DW를 통해 분석 데이터를 가져와 사용한다. 

클린징 영역인 ODS(Operational Data Store)를 결합해 활용하기도한다.

Legacy(기존 운영시스템)은 직접 접근 위험해서 X, Staging area(스테이징 영역)은 임시저장 된 데이터라서 X

 

최종데이터로 가공

 1) 데이터마이닝 분류: 분류값과 입력변수들을 연관시켜 인구통계, 요약변수, 파생변수 등을 산출

 2) 정형화된 패턴처리

    -비정형데이터: 텍스트마이닝 +DM 해서 사용

    -관계형데이터: 사회산경망분석 결과 통계값+ DM 해서 사용

 

 

2. 시각화

가장 낮은 수준의 분석이지만 복잡한 분석보다도 효율적으로 사용가능

대용량 데이터 분석, 탐색적 분석, SNA분석에서 사용

*SNA(social network analysis): 사회연결망 분석

 

 

3. 공간분석

공간적 차원과 관련된 속성들 시각화

지도 위 속성들을 크기, 모양, 선 굵기 등으로 구분하여 인사이트 얻음

 

 

4. 탐색적 자료분석(EDA)

조합을 통해 특이점이나 유의미한 사실 도출해내는 과정

데이터의 특징과 구조적 관계를 알아내기 위한 기법들

데이터이해 단계, 변수생성(요약, 파생변수 생성) 단계, 변수선택(Y에 의미있는 X선택) 단계에서 활용

4가지 주제
저항성의 강조 자료변동에 민감하지 않으면 저항성이 있음
잔차 계산 주 경향으로부터 얼마나 벗어나는지
자료변수의 재표현 적당한 척도로 변수 변경
그래프를 통한 현시성 시각화를 통해 구조파악

 

 

5. 통계분석

통계: 어떤 현상을 종합적으로 알아보기 쉽게 숫자, 표, 그림 형태로 나타냄

기술통계: 정보 쉽게 파악하기 위해, 데이터를 하나의 숫자 또는 그래프의 형태로 펴현

추측(추론)통계: 표본통계량으로 부터 모수를 통계적으로 추론

 

 

6. 데이터마이닝

고급 데이터 분석법

대용량의 자료로부터 정보요약, 미래예측, 관계, 규칙 탐색

모형화(모델링)을 함으로써 유용한 지식 추출 

 

방법론

-데이터베이스에서의 지식탐색

-기계학습: 컴퓨터가 학습할 수 있도록 알고리즘과 기술 개발, 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM

-패턴인식 :장바구니 분석, 연관규칙

'Adsp' 카테고리의 다른 글

3장. 데이터마트  (0) 2021.08.19