본문 바로가기

ML

(70)
[airflow] certified https://academy.astronomer.io/certification-exam-apache-airflow-3-fundamentalshttps://academy.astronomer.io/certification-exam-dag-authoring-airflow-3 airflow 관련 두개의 인증 시험을 봤다. 뭐.. fundamentals는 정말 기초여서 쉬웠고 (공부 안하고 봤더니, 10개나 틀렸다),dag authoring은 airflow3을 기준으로 해서, 강좌와 문서를 보면 쉽게 합격할 수 있다. (하나 틀렷따..ㅋ) 가끔씩 무료로 볼수 있도록 코드가 배포되니, airflow 관련 커뮤니티 잘보고 있으면 코드도 쉽게 얻을수 잇다. (1..
[airflow] Branching 브랜칭은 런타임 조건에 따라 실행 경로를 선택하는 기능쓰임새: 데이터 유효성 검증(있으면 진행/없으면 스킵), 환경별 처리(dev/prod), 시간대별로 다른 경로, 리소스 절감 등.브랜치에 **선택되지 않은 태스크는 실패가 아닌 skipped**로 표시1. @task.branch Decorator해당 테스크의 리턴값으로 다음 task의 분기를 결정. (airflow의 설계 사상에서는 task 내에 if 문으로 처리하기 보다는 각각의 독립된 task를 사용하도록 권장하고 있다. 그래서 branch를 통해서 다음에 어느 task를 실행할지를 결정해야 한다. from airflow import DAGfrom airflow.decorators import taskfrom airflow.operators.emp..
CoxPHFitter Cox 비례위험모형 (Cox Proportional Hazards Model) 은 생존 시간에 영향을 미치는 다수의 공변량(설명 변수) 을 고려해, 각 변수의 위험도(Hazard)에 미치는 영향력(계수) 을 추정에 쓰인다.위험률 비율(Hazard Ratio)은 시간이 지나도 변하지 않는다고 가정한다는 ("Proportional Hazards") 가 주요 목표이다. kaplan-meier 와의 차이구분Kaplan-Meier CurveCoxPHFitter의 생존 함수목적기술(Descriptive)예측(Predictive)의미데이터에 있는 집단 전체의 과거 생존 경험이 어떠했는지 보여줌여러 변수를 고려해 특정 개인의 미래 생존 확률이 어떨지 예측함사용 데이터오직 기간(duration)과 사건(event)기간..
Kaplan-Meier curve Kaplan-Meier curve는 생존 함수를 추정하고 시각화하는 가장 대표적인 방법이다.정확히는, 생존 함수라는 통계적 개념을 실제 데이터로부터 계단식 그래프 형태로 그려낸 결과물이 바로 Kaplan-Meier curve이다. 생존함수?생존 함수 S(t)는 특정 시점 t를 초과하여 생존(survive)할 확률을 의미한다. 여기서 '생존'은 분석 대상에 따라 다양하게 정의될 수 있다.의학 연구: 환자가 특정 시점 t 이후에도 사망하지 않고 생존할 확률제품 수명 분석: 기계나 부품이 특정 시간 t를 넘어 고장 나지 않고 작동할 확률고객 이탈 분석: 고객이 특정 기간 t가 지나도 서비스를 해지하지 않고 남아있을 확률수식으로는 S(t) = P(T > t)로 표현한다. 사건이 발생하기까지 걸리는 시간 T가..
bigquery ML 분류 (긍정/부정) - 영어 참고 https://medium.com/@jeffrey.james/text-classification-using-bigquery-ml-and-ml-ngrams-6e365f0b5505 Text Classification Using BigQuery ML and ML.NGRAMSIn this post, we’ll build a logistic regression classifier (binary) to predict positive or negative sentiment, using the IMDB movie…medium.com 버킷에 데이터 업로드 bq --project_id=your-project-id load \--autodetect \--source_format=CSV \test.imdb_rev..
SMOTE - ML에 쓰일 데이터의 불균형을 해소해보자. SMOTE(Synthetic Minority Over-sampling Technique)는 클래스별 비중(불균형 비율) 해소를 위해 사용하는 오버샘플링(Oversampling) 기법이다. 분류(Classification) 모델을 학습할 때, 각 클래스의 데이터 양이 비슷해야 모델이 편향되지 않고 잘 학습된다. 그러나 현실 데이터는 대부분이 불균형 상태이다. 이탈(0) 클래스가 300,000건, 유지(1) 클래스가 35,000건처럼 비율이 극단적으로 치우쳐 있으면, 모델은 자연스럽게 다수 클래스(이탈)만 잘 예측하도록 학습된다.결과적으로 소수 클래스(유지)에 대한 민감도가 떨어져 precision·recall·F1이 낮아진다. SMOTE단순 복제가 아니라, 소수 클래스 샘플끼리 “k-최근접 이웃”을 찾..
2. 3점 슛이 코트를 지배하는가? 저는 농알못이므로 그냥 재미로만 봐야 합니다.https://www.youtube.com/shorts/6Q-6KyJ3974 이번 데이터는 NBA를 기준으로 합니다. 1. 3점슛의 비중이 얼마나 높아졌는가?3점슛 도입 초기 (1979-1980 시즌): 리그 전체에서 총 7,500번의 야투 시도가 있었고, 그중 3점슛 시도는 단 227번에 불과했으며 성공은 64번에 그침20년 후 (1999-2000 시즌): 리그 전체가 총 7,000번의 야투 시도 중 1,000번 이상의 3점슛을 시도2018-2019 시즌: 3점슛 시도 횟수가 2,600번 이상으로 급증. 이는 1999-2000 시즌 대비 150% 증가 Daryl Mori(대릴 모리)의 영향: 통계에 집착하는 농구 임원인 Daryl Mori는 2014년 D..
1. 영화관은 정말 망해가고 있는걸까? 1. 우리는 왜 영화관을 안갈까?마지막으로 영화관을 간게 10년되었다…(가디언즈 오브 갤럭시가 저의 영화관 마지막 영화…)비싸고, 좁고, 시끄럽고, 두시간동안 돈을 내고 고통받기 싫어서 안가게됨 20년간의 티켓 가격 추이 (일반 좌석 기준)영화진흥위원회에서 해당 데이터를 볼수 있습니다. 연도영화진흥위원회 평균가롯데시네마CGV메가박스20046,3647,000원8,000원7,000원20086,5218,000원9,000원8,000원20096,9709,000원10,000원9,000원20107,83210,000원10,000원10,000원20137,27111,000원11,000원11,000원20147,73812,000원12,000원12,000원20168,03213,000원13,000원13,000원20188,383..