본문 바로가기

ML

(68)
CoxPHFitter Cox 비례위험모형 (Cox Proportional Hazards Model) 은 생존 시간에 영향을 미치는 다수의 공변량(설명 변수) 을 고려해, 각 변수의 위험도(Hazard)에 미치는 영향력(계수) 을 추정에 쓰인다.위험률 비율(Hazard Ratio)은 시간이 지나도 변하지 않는다고 가정한다는 ("Proportional Hazards") 가 주요 목표이다. kaplan-meier 와의 차이구분Kaplan-Meier CurveCoxPHFitter의 생존 함수목적기술(Descriptive)예측(Predictive)의미데이터에 있는 집단 전체의 과거 생존 경험이 어떠했는지 보여줌여러 변수를 고려해 특정 개인의 미래 생존 확률이 어떨지 예측함사용 데이터오직 기간(duration)과 사건(event)기간..
Kaplan-Meier curve Kaplan-Meier curve는 생존 함수를 추정하고 시각화하는 가장 대표적인 방법이다.정확히는, 생존 함수라는 통계적 개념을 실제 데이터로부터 계단식 그래프 형태로 그려낸 결과물이 바로 Kaplan-Meier curve이다. 생존함수?생존 함수 S(t)는 특정 시점 t를 초과하여 생존(survive)할 확률을 의미한다. 여기서 '생존'은 분석 대상에 따라 다양하게 정의될 수 있다.의학 연구: 환자가 특정 시점 t 이후에도 사망하지 않고 생존할 확률제품 수명 분석: 기계나 부품이 특정 시간 t를 넘어 고장 나지 않고 작동할 확률고객 이탈 분석: 고객이 특정 기간 t가 지나도 서비스를 해지하지 않고 남아있을 확률수식으로는 S(t) = P(T > t)로 표현한다. 사건이 발생하기까지 걸리는 시간 T가..
bigquery ML 분류 (긍정/부정) - 영어 참고 https://medium.com/@jeffrey.james/text-classification-using-bigquery-ml-and-ml-ngrams-6e365f0b5505 Text Classification Using BigQuery ML and ML.NGRAMSIn this post, we’ll build a logistic regression classifier (binary) to predict positive or negative sentiment, using the IMDB movie…medium.com 버킷에 데이터 업로드 bq --project_id=your-project-id load \--autodetect \--source_format=CSV \test.imdb_rev..
SMOTE - ML에 쓰일 데이터의 불균형을 해소해보자. SMOTE(Synthetic Minority Over-sampling Technique)는 클래스별 비중(불균형 비율) 해소를 위해 사용하는 오버샘플링(Oversampling) 기법이다. 분류(Classification) 모델을 학습할 때, 각 클래스의 데이터 양이 비슷해야 모델이 편향되지 않고 잘 학습된다. 그러나 현실 데이터는 대부분이 불균형 상태이다. 이탈(0) 클래스가 300,000건, 유지(1) 클래스가 35,000건처럼 비율이 극단적으로 치우쳐 있으면, 모델은 자연스럽게 다수 클래스(이탈)만 잘 예측하도록 학습된다.결과적으로 소수 클래스(유지)에 대한 민감도가 떨어져 precision·recall·F1이 낮아진다. SMOTE단순 복제가 아니라, 소수 클래스 샘플끼리 “k-최근접 이웃”을 찾..
2. 3점 슛이 코트를 지배하는가? 저는 농알못이므로 그냥 재미로만 봐야 합니다.https://www.youtube.com/shorts/6Q-6KyJ3974 이번 데이터는 NBA를 기준으로 합니다. 1. 3점슛의 비중이 얼마나 높아졌는가?3점슛 도입 초기 (1979-1980 시즌): 리그 전체에서 총 7,500번의 야투 시도가 있었고, 그중 3점슛 시도는 단 227번에 불과했으며 성공은 64번에 그침20년 후 (1999-2000 시즌): 리그 전체가 총 7,000번의 야투 시도 중 1,000번 이상의 3점슛을 시도2018-2019 시즌: 3점슛 시도 횟수가 2,600번 이상으로 급증. 이는 1999-2000 시즌 대비 150% 증가 Daryl Mori(대릴 모리)의 영향: 통계에 집착하는 농구 임원인 Daryl Mori는 2014년 D..
1. 영화관은 정말 망해가고 있는걸까? 1. 우리는 왜 영화관을 안갈까?마지막으로 영화관을 간게 10년되었다…(가디언즈 오브 갤럭시가 저의 영화관 마지막 영화…)비싸고, 좁고, 시끄럽고, 두시간동안 돈을 내고 고통받기 싫어서 안가게됨 20년간의 티켓 가격 추이 (일반 좌석 기준)영화진흥위원회에서 해당 데이터를 볼수 있습니다. 연도영화진흥위원회 평균가롯데시네마CGV메가박스20046,3647,000원8,000원7,000원20086,5218,000원9,000원8,000원20096,9709,000원10,000원9,000원20107,83210,000원10,000원10,000원20137,27111,000원11,000원11,000원20147,73812,000원12,000원12,000원20168,03213,000원13,000원13,000원20188,383..
bigquery ML Titanic 해당 예제는 bigquery의 bgml을 사용해서 타이타닉을 예측하는 예제이다. 데이터 다운로드 https://www.kaggle.com/competitions/titanic/data TitanicKaggle profile for Titanicwww.kaggle.com 파일 업로드로 빅쿼리에 테이블로 변환 생성 완료 모델 생성 CREATE OR REPLACE MODEL `project.dataset.titanic_logistic_model`OPTIONS ( model_type = 'logistic_reg', input_label_cols = ['Survived']) ASSELECT Survived, Pclass, IF(Sex = 'male', 1, 0) AS Sex, Age, S..
jenkins pipeline이 사라졌다!! 갑자기 잘 돈던 jenkins의 pipeline들이 사라져버렸다. 다행히 기존 freestyle은 살아있어서, 중요한 배치들은 돌아갔지만, 신규로 만든 pipeline의 배치 30개가 말끔하게 사라진상태..뭐지? 하는 마음에 새로운 아이템을 추가를 눌러봤더니 모든 플러그인들을 쓸수 없는 상태였다. jenkins 관리 로 들어가보면 모든 플러그인들의 load에서 Fail이 난 상태.. 시스템 로그에서 보니 workflow-cps, workflow-api 등을 로드 못하면서 관련된 모든 플러그인들이 로드가 안된 상태였다. + 무리하게 job을 돌리면서 OOM이났고, 리부팅 되는 과정에서 기존에 업데이트 되었던 플러그인들의 충동 + jenkins 버전 충돌 콜라보로 기본 플러그인 제외하고 모두 멈춘상태였다...