본문 바로가기

ML

(72)

MMR 논문 : The Use of MMR Diversity-Based Reranking for Reordering Documents and Producing Summaries 두페이지 짜리 매우 짧은 논문입니다...논문 링크 AbstractMMR(Maximal Marginal Relevance, 최대 한계 관련성) 기준은 검색된 문서를 재순위화(re-ranking)하거나 텍스트 요약을 위해 적절한 구절을 선택할 때, 쿼리와의 관련성을 유지하면서 동시에 중복성(redundancy)을 줄이는 것을 목표로 한다. 1. Introduction기존의 정보 검색(IR) 시스템은 사용자 쿼리와의 관련성(relevance)을 최대화를 기반으로 문서를 순위화 한다. 잠재적으로 관련 있는 문서가 방대하게 많고, 서로 내용이 매우 중복되거나 (극단적인 경우) 부분적 혹은 전체적으로 복제된 정보를 포함하고 있는 경우에는, 문서 랭킹을 위해 순수 관련성 이상의 수단을 사용해야 한다. 새로운 ..

ALS 논문 : MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS 2009년 넷플릭스가 주최한 추천할고리즘 대회 후 우승자가 발표한 논문으로 해당 논문에서 ALS에 대한 설명이 있어 번역해보았다. (SVD를 찾다가 ALS 논문을 봐버렸다.. 사실 둘이 대칭점이 있어서 언제 써야 하는지는 알아둬야 할거 같다) 원문은 다음을 참조하세요. https://datajobs.com/data-science-repo/Recommender-Systems-[Netflix].pdf 서문넷플릭스 (Netflix Prize) 대회가 입증했듯이, 행렬 분해(Matrix Factorization) 모델은 제품 추천을 생성하는 데 있어 전통적인 최근접 이웃(Nearest-neighbor) 기법보다 우수합니다. 이는 암묵적 피드백, 시간적 영향, 그리고 신뢰도 수준과 같은 추가적인 정보를 통합할 수..

[airflow] certified https://academy.astronomer.io/certification-exam-apache-airflow-3-fundamentalshttps://academy.astronomer.io/certification-exam-dag-authoring-airflow-3 airflow 관련 두개의 인증 시험을 봤다. 뭐.. fundamentals는 정말 기초여서 쉬웠고 (공부 안하고 봤더니, 10개나 틀렸다),dag authoring은 airflow3을 기준으로 해서, 강좌와 문서를 보면 쉽게 합격할 수 있다. (하나 틀렷따..ㅋ) 가끔씩 무료로 볼수 있도록 코드가 배포되니, airflow 관련 커뮤니티 잘보고 있으면 코드도 쉽게 얻을수 잇다. (1..

[airflow] Branching 브랜칭은 런타임 조건에 따라 실행 경로를 선택하는 기능쓰임새: 데이터 유효성 검증(있으면 진행/없으면 스킵), 환경별 처리(dev/prod), 시간대별로 다른 경로, 리소스 절감 등.브랜치에 **선택되지 않은 태스크는 실패가 아닌 skipped**로 표시1. @task.branch Decorator해당 테스크의 리턴값으로 다음 task의 분기를 결정. (airflow의 설계 사상에서는 task 내에 if 문으로 처리하기 보다는 각각의 독립된 task를 사용하도록 권장하고 있다. 그래서 branch를 통해서 다음에 어느 task를 실행할지를 결정해야 한다. from airflow import DAGfrom airflow.decorators import taskfrom airflow.operators.emp..

CoxPHFitter Cox 비례위험모형 (Cox Proportional Hazards Model) 은 생존 시간에 영향을 미치는 다수의 공변량(설명 변수) 을 고려해, 각 변수의 위험도(Hazard)에 미치는 영향력(계수) 을 추정에 쓰인다.위험률 비율(Hazard Ratio)은 시간이 지나도 변하지 않는다고 가정한다는 ("Proportional Hazards") 가 주요 목표이다. kaplan-meier 와의 차이구분Kaplan-Meier CurveCoxPHFitter의 생존 함수목적기술(Descriptive)예측(Predictive)의미데이터에 있는 집단 전체의 과거 생존 경험이 어떠했는지 보여줌여러 변수를 고려해 특정 개인의 미래 생존 확률이 어떨지 예측함사용 데이터오직 기간(duration)과 사건(event)기간..

Kaplan-Meier curve Kaplan-Meier curve는 생존 함수를 추정하고 시각화하는 가장 대표적인 방법이다.정확히는, 생존 함수라는 통계적 개념을 실제 데이터로부터 계단식 그래프 형태로 그려낸 결과물이 바로 Kaplan-Meier curve이다. 생존함수?생존 함수 S(t)는 특정 시점 t를 초과하여 생존(survive)할 확률을 의미한다. 여기서 '생존'은 분석 대상에 따라 다양하게 정의될 수 있다.의학 연구: 환자가 특정 시점 t 이후에도 사망하지 않고 생존할 확률제품 수명 분석: 기계나 부품이 특정 시간 t를 넘어 고장 나지 않고 작동할 확률고객 이탈 분석: 고객이 특정 기간 t가 지나도 서비스를 해지하지 않고 남아있을 확률수식으로는 S(t) = P(T > t)로 표현한다. 사건이 발생하기까지 걸리는 시간 T가..

bigquery ML 분류 (긍정/부정) - 영어 참고 https://medium.com/@jeffrey.james/text-classification-using-bigquery-ml-and-ml-ngrams-6e365f0b5505 Text Classification Using BigQuery ML and ML.NGRAMSIn this post, we’ll build a logistic regression classifier (binary) to predict positive or negative sentiment, using the IMDB movie…medium.com 버킷에 데이터 업로드 bq --project_id=your-project-id load \--autodetect \--source_format=CSV \test.imdb_rev..

SMOTE - ML에 쓰일 데이터의 불균형을 해소해보자. SMOTE(Synthetic Minority Over-sampling Technique)는 클래스별 비중(불균형 비율) 해소를 위해 사용하는 오버샘플링(Oversampling) 기법이다. 분류(Classification) 모델을 학습할 때, 각 클래스의 데이터 양이 비슷해야 모델이 편향되지 않고 잘 학습된다. 그러나 현실 데이터는 대부분이 불균형 상태이다. 이탈(0) 클래스가 300,000건, 유지(1) 클래스가 35,000건처럼 비율이 극단적으로 치우쳐 있으면, 모델은 자연스럽게 다수 클래스(이탈)만 잘 예측하도록 학습된다.결과적으로 소수 클래스(유지)에 대한 민감도가 떨어져 precision·recall·F1이 낮아진다. SMOTE단순 복제가 아니라, 소수 클래스 샘플끼리 “k-최근접 이웃”을 찾..

이전 1 2 3 4 ··· 9 다음

티스토리툴바