0. 소개
https://www.coursera.org/lecture/probability-intro/introduction-UbGdZ
모집단 -> 샘플 추출 -> 연구 -> 관계유추 -> 데이터 시각화 및 통계 -> 통계데이터
1. 변수 / 변수타입 / 변수의 관계
https://www.coursera.org/learn/probability-intro/lecture/Q0zu3/data-basics
- 변수
- 숫자변수 : 숫자를 사용 사칙연산이 가능한 변수
- 연속 : 높이
- 불연속 : 높이를 cm로 표기
- 분류
- 지정된 분류 : 순서가 중요 (높음/ 중간 / 낮음)
- 비지정 분류
- 관찰 : 직접적인 데이터 수집, 관찰만으로 변수들의 관계 파악
- 실험 : 랜덤으로 추출된 샘플로 변수와 응답 관계 연결 확인
- 되풀이 연구 : 과거의 연구 이용
- 예상 : 연구 절반에 걸쳐 데이터가 수집되는 경우
3. 샘플링과 편향(bias)
https://www.coursera.org/lecture/probability-intro/sampling-and-sources-of-bias-Y96uT
전체 샘플을 조사하는게 베스트지만 돈/시간의 제약
샘플링 : 전체가 아닌 소수만으로 분석 (요리를 할때 전체요리를 다 먹을 필요 없이 한스푼만으로 간을 봄)
단!! 해당 데이터가 골고루 퍼져 있어야 함 ( 골고루 섞지 않으면 간이 일정하지 않음)
- simple random sample : 전체 모집단 중 무작위 추출
- stratified sample : strata로 구룹필한 곳에서 무작위 추출
- cluster sample : 클러스터로 묶은 집단을 추출
- multistage sample : 클러스터링 한 집단안에서의 무작위 추출
4. 무작위 샘플 할당
https://www.coursera.org/lecture/probability-intro/experimental-design-Jyc3t
random sampling : 모집단에서 특정 데이터만을 샘플링을 통해 결과값을 일반화
random assignment : 샘플에서 특정 그룹으로 나눌시 해당하는 변수들을 섞어서 실험, 즉 같은 값을 가지고 있는 표본들이 그룹으로 나뉘므로 어떠한 작용이 있는지 알아낼수 있음
일반적으로 random sampling 을 통해 샘플링된 집단에서 특정 변수로 구분하여 다시 random assignment하면 실험에 필요한 집단 두개에 변수들이 고르게 분포 되므로 결과값을 일반화 할수 있음
( 특정 폰트의 가독성을 측정 할 경우 모집단에서 샘플링한 사람들에서 교육차이로 빨강/검정으로 검증후 두 그룹으로 나눌대 교육에의해 군등하게 나누고 폰트 실험을 한다면 어떠한 폰트가 더 잘 읽히는지에 대한 교육의 변수를 알수 있음)