본문 바로가기

ML/coursera

코세라 통계학-2

1. 수치형 데이터 시각화

https://www.coursera.org/lecture/probability-intro/visualizing-numerical-data-9kRJf


분산형 계획 :  두개의 변수에 의해 어떠한 변수값에 의해 데이터에 영향을 미치는지 확인


두변수간의 관계에 따른 분산을 통해 4가지 형태로 분류 가능함

  • 방향 : 증가 / 감소

  • 모양 : 선형 / 비선형

  • 연관성 : 강함 / 약함

  • 이상치 : 특정 관계에 따른 그룹화

box plot와 히스토그램은 상호 보안이 가능함

box plot에서 분포의 최고점은 히스토그램에서 중앙값이 되며 꼬리는 각 끝으로 이어져 히스토그램과 같은 분포를 나타내게 된다 


2. 데이터에서 중심(중간)을 나타내는 방식

https://www.coursera.org/lecture/probability-intro/measures-of-center-AM0o6

1. mean : 모집단의 평균 ( 모든 샘플의 합 / 샘플의 갯수 )

2. mode : 최빈값 ( 가장 많이 나오는 값 )

3. median : 가운데 위치한 데이터 ( 정렬 후 가운데 있는 값 ) 

만약 median의 가운데가 두개라면 두수의 평균으로 계산 

left skewed :  mean < median

symmetric   : mean ~= median

right skwed : mean > median


3.데이터의 퍼짐을 나타내는 방식

https://www.coursera.org/lecture/probability-intro/measures-of-spread-t9Wbk

분산 : 데이터가 얼마나 퍼져있는지에 대한 수치

  • 변화량

  • 교차사분위범위


variance(변화량)^2 = (데이터 - 평균)^2 / 데이터갯수 -1

교차사분위범위 ( IQR ) : 3분위 - 1분위

1분위 : 전체데이터의 1/4지점

3분위 : 전체데이터의 3/4지점


4. 엄격한 관찰

https://www.coursera.org/lecture/probability-intro/robust-statistics-ssktR


강력한 통계 (값이 특정 부위에 항상 있음) : median(중앙값), IRQ (교차사분위) - 기울어진 분포, 극한의 관찰 설명

비강력한통계 (값이 어디에 있을지 모름- 데이터 값에 따름): 평균, 표준편차  -  대칭분포 설명


5. 데이터 변환

https://www.coursera.org/lecture/probability-intro/transforming-data-eQa2U

data 가 비선형 형태이거나 정규분포가 아닌 경우에는 통계적 분석을 하는데, 문제가 발생 (선형성 가정이 없기 떄문)

data 를 변환해서 정규분포 형태도 바꿔서 분석하는 방법 ( 로그 변환, 1/y, sqrt(y), 루트 변환등)을 통해 선형데이터로 바꿈


'ML > coursera' 카테고리의 다른 글

코세라 통계학-1  (0) 2018.12.01