본문 바로가기

ML/coursera

코세라 통계학-1

0. 소개

https://www.coursera.org/lecture/probability-intro/introduction-UbGdZ

모집단 -> 샘플 추출 -> 연구 -> 관계유추 -> 데이터 시각화 및 통계 -> 통계데이터 


1. 변수 / 변수타입 / 변수의 관계

https://www.coursera.org/learn/probability-intro/lecture/Q0zu3/data-basics


  • 변수
    • 숫자변수 : 숫자를 사용 사칙연산이 가능한 변수
      • 연속 : 높이
      • 불연속 : 높이를 cm로 표기 
    • 분류 
      • 지정된 분류 : 순서가 중요 (높음/ 중간 / 낮음)
      • 비지정 분류
변수의 관계 : 두개 이상의 변수로 인해 차원을 그릴수 있다면, 해당 변수들은 특수한 관계를 가지게 된다.


2. 상관관계 / 연관관계


  • 관찰 : 직접적인 데이터 수집, 관찰만으로 변수들의 관계 파악
  • 실험 : 랜덤으로 추출된 샘플로 변수와 응답 관계 연결 확인
- 실험에의해  랜덤으로 결정된 샘플은 해당 변수 뿐만 아니라 다른 요인으로 결과값이 나올수 있음
   (선 분류 후 관계 파악)
- 관찰은 해당 변수에만 동작하도록 상황 설정 (선 관계 후 파악)

  • 되풀이 연구 : 과거의 연구 이용
  • 예상 : 연구 절반에 걸쳐 데이터가 수집되는 경우


3. 샘플링과 편향(bias)

https://www.coursera.org/lecture/probability-intro/sampling-and-sources-of-bias-Y96uT


전체 샘플을 조사하는게 베스트지만 돈/시간의 제약

샘플링 : 전체가 아닌 소수만으로 분석 (요리를 할때 전체요리를 다 먹을 필요 없이 한스푼만으로 간을 봄)

             단!! 해당 데이터가 골고루 퍼져 있어야 함 ( 골고루 섞지 않으면 간이 일정하지 않음)


- simple random sample : 전체 모집단 중 무작위 추출

- stratified sample : strata로 구룹필한 곳에서 무작위 추출

- cluster sample : 클러스터로 묶은 집단을 추출

- multistage sample : 클러스터링 한 집단안에서의 무작위 추출


4. 무작위 샘플 할당

https://www.coursera.org/lecture/probability-intro/experimental-design-Jyc3t

random sampling : 모집단에서 특정 데이터만을 샘플링을 통해 결과값을  일반화 

random assignment : 샘플에서 특정 그룹으로 나눌시 해당하는 변수들을 섞어서 실험, 즉 같은 값을 가지고 있는 표본들이 그룹으로 나뉘므로 어떠한 작용이 있는지 알아낼수 있음

일반적으로 random sampling 을 통해 샘플링된 집단에서 특정 변수로 구분하여 다시 random assignment하면 실험에 필요한 집단 두개에 변수들이 고르게 분포 되므로 결과값을 일반화 할수 있음

( 특정 폰트의 가독성을 측정 할 경우 모집단에서 샘플링한 사람들에서 교육차이로 빨강/검정으로 검증후 두 그룹으로 나눌대 교육에의해 군등하게 나누고 폰트 실험을 한다면 어떠한 폰트가 더 잘 읽히는지에 대한 교육의 변수를 알수 있음)

'ML > coursera' 카테고리의 다른 글

코세라 통계학-2  (0) 2018.12.01