'데이터분석'에 해당하는 글 3건





'데이터분석' 카테고리의 다른 글

데이터 분석 기초 자료  (0) 2018.12.21

WRITTEN BY
No.190
세계정복의 시작점

트랙백  0 , 댓글  0개가 달렸습니다.
secret

1. 수치형 데이터 시각화

https://www.coursera.org/lecture/probability-intro/visualizing-numerical-data-9kRJf


분산형 계획 :  두개의 변수에 의해 어떠한 변수값에 의해 데이터에 영향을 미치는지 확인


두변수간의 관계에 따른 분산을 통해 4가지 형태로 분류 가능함

  • 방향 : 증가 / 감소

  • 모양 : 선형 / 비선형

  • 연관성 : 강함 / 약함

  • 이상치 : 특정 관계에 따른 그룹화

box plot와 히스토그램은 상호 보안이 가능함

box plot에서 분포의 최고점은 히스토그램에서 중앙값이 되며 꼬리는 각 끝으로 이어져 히스토그램과 같은 분포를 나타내게 된다 


2. 데이터에서 중심(중간)을 나타내는 방식

https://www.coursera.org/lecture/probability-intro/measures-of-center-AM0o6

1. mean : 모집단의 평균 ( 모든 샘플의 합 / 샘플의 갯수 )

2. mode : 최빈값 ( 가장 많이 나오는 값 )

3. median : 가운데 위치한 데이터 ( 정렬 후 가운데 있는 값 ) 

만약 median의 가운데가 두개라면 두수의 평균으로 계산 

left skewed :  mean < median

symmetric   : mean ~= median

right skwed : mean > median


3.데이터의 퍼짐을 나타내는 방식

https://www.coursera.org/lecture/probability-intro/measures-of-spread-t9Wbk

분산 : 데이터가 얼마나 퍼져있는지에 대한 수치

  • 변화량

  • 교차사분위범위


variance(변화량)^2 = (데이터 - 평균)^2 / 데이터갯수 -1

교차사분위범위 ( IQR ) : 3분위 - 1분위

1분위 : 전체데이터의 1/4지점

3분위 : 전체데이터의 3/4지점


4. 엄격한 관찰

https://www.coursera.org/lecture/probability-intro/robust-statistics-ssktR


강력한 통계 (값이 특정 부위에 항상 있음) : median(중앙값), IRQ (교차사분위) - 기울어진 분포, 극한의 관찰 설명

비강력한통계 (값이 어디에 있을지 모름- 데이터 값에 따름): 평균, 표준편차  -  대칭분포 설명


5. 데이터 변환

https://www.coursera.org/lecture/probability-intro/transforming-data-eQa2U

data 가 비선형 형태이거나 정규분포가 아닌 경우에는 통계적 분석을 하는데, 문제가 발생 (선형성 가정이 없기 떄문)

data 를 변환해서 정규분포 형태도 바꿔서 분석하는 방법 ( 로그 변환, 1/y, sqrt(y), 루트 변환등)을 통해 선형데이터로 바꿈


'데이터분석 > coursera' 카테고리의 다른 글

코세라 통계학-2  (0) 2018.12.01
코세라 통계학-1  (0) 2018.12.01

WRITTEN BY
No.190
세계정복의 시작점

트랙백  0 , 댓글  0개가 달렸습니다.
secret

0. 소개

https://www.coursera.org/lecture/probability-intro/introduction-UbGdZ

모집단 -> 샘플 추출 -> 연구 -> 관계유추 -> 데이터 시각화 및 통계 -> 통계데이터 


1. 변수 / 변수타입 / 변수의 관계

https://www.coursera.org/learn/probability-intro/lecture/Q0zu3/data-basics


  • 변수
    • 숫자변수 : 숫자를 사용 사칙연산이 가능한 변수
      • 연속 : 높이
      • 불연속 : 높이를 cm로 표기 
    • 분류 
      • 지정된 분류 : 순서가 중요 (높음/ 중간 / 낮음)
      • 비지정 분류
변수의 관계 : 두개 이상의 변수로 인해 차원을 그릴수 있다면, 해당 변수들은 특수한 관계를 가지게 된다.


2. 상관관계 / 연관관계


  • 관찰 : 직접적인 데이터 수집, 관찰만으로 변수들의 관계 파악
  • 실험 : 랜덤으로 추출된 샘플로 변수와 응답 관계 연결 확인
- 실험에의해  랜덤으로 결정된 샘플은 해당 변수 뿐만 아니라 다른 요인으로 결과값이 나올수 있음
   (선 분류 후 관계 파악)
- 관찰은 해당 변수에만 동작하도록 상황 설정 (선 관계 후 파악)

  • 되풀이 연구 : 과거의 연구 이용
  • 예상 : 연구 절반에 걸쳐 데이터가 수집되는 경우


3. 샘플링과 편향(bias)

https://www.coursera.org/lecture/probability-intro/sampling-and-sources-of-bias-Y96uT


전체 샘플을 조사하는게 베스트지만 돈/시간의 제약

샘플링 : 전체가 아닌 소수만으로 분석 (요리를 할때 전체요리를 다 먹을 필요 없이 한스푼만으로 간을 봄)

             단!! 해당 데이터가 골고루 퍼져 있어야 함 ( 골고루 섞지 않으면 간이 일정하지 않음)


- simple random sample : 전체 모집단 중 무작위 추출

- stratified sample : strata로 구룹필한 곳에서 무작위 추출

- cluster sample : 클러스터로 묶은 집단을 추출

- multistage sample : 클러스터링 한 집단안에서의 무작위 추출


4. 무작위 샘플 할당

https://www.coursera.org/lecture/probability-intro/experimental-design-Jyc3t

random sampling : 모집단에서 특정 데이터만을 샘플링을 통해 결과값을  일반화 

random assignment : 샘플에서 특정 그룹으로 나눌시 해당하는 변수들을 섞어서 실험, 즉 같은 값을 가지고 있는 표본들이 그룹으로 나뉘므로 어떠한 작용이 있는지 알아낼수 있음

일반적으로 random sampling 을 통해 샘플링된 집단에서 특정 변수로 구분하여 다시 random assignment하면 실험에 필요한 집단 두개에 변수들이 고르게 분포 되므로 결과값을 일반화 할수 있음

( 특정 폰트의 가독성을 측정 할 경우 모집단에서 샘플링한 사람들에서 교육차이로 빨강/검정으로 검증후 두 그룹으로 나눌대 교육에의해 군등하게 나누고 폰트 실험을 한다면 어떠한 폰트가 더 잘 읽히는지에 대한 교육의 변수를 알수 있음)

'데이터분석 > coursera' 카테고리의 다른 글

코세라 통계학-2  (0) 2018.12.01
코세라 통계학-1  (0) 2018.12.01

WRITTEN BY
No.190
세계정복의 시작점

트랙백  0 , 댓글  0개가 달렸습니다.
secret