본문 바로가기

ML/MLops

(16)

SMOTE - ML에 쓰일 데이터의 불균형을 해소해보자. SMOTE(Synthetic Minority Over-sampling Technique)는 클래스별 비중(불균형 비율) 해소를 위해 사용하는 오버샘플링(Oversampling) 기법이다. 분류(Classification) 모델을 학습할 때, 각 클래스의 데이터 양이 비슷해야 모델이 편향되지 않고 잘 학습된다. 그러나 현실 데이터는 대부분이 불균형 상태이다. 이탈(0) 클래스가 300,000건, 유지(1) 클래스가 35,000건처럼 비율이 극단적으로 치우쳐 있으면, 모델은 자연스럽게 다수 클래스(이탈)만 잘 예측하도록 학습된다.결과적으로 소수 클래스(유지)에 대한 민감도가 떨어져 precision·recall·F1이 낮아진다. SMOTE단순 복제가 아니라, 소수 클래스 샘플끼리 “k-최근접 이웃”을 찾..

jenkins pipeline이 사라졌다!! 갑자기 잘 돈던 jenkins의 pipeline들이 사라져버렸다. 다행히 기존 freestyle은 살아있어서, 중요한 배치들은 돌아갔지만, 신규로 만든 pipeline의 배치 30개가 말끔하게 사라진상태..뭐지? 하는 마음에 새로운 아이템을 추가를 눌러봤더니 모든 플러그인들을 쓸수 없는 상태였다. jenkins 관리 로 들어가보면 모든 플러그인들의 load에서 Fail이 난 상태.. 시스템 로그에서 보니 workflow-cps, workflow-api 등을 로드 못하면서 관련된 모든 플러그인들이 로드가 안된 상태였다. + 무리하게 job을 돌리면서 OOM이났고, 리부팅 되는 과정에서 기존에 업데이트 되었던 플러그인들의 충동 + jenkins 버전 충돌 콜라보로 기본 플러그인 제외하고 모두 멈춘상태였다...

airflow + dbt 를 활용한 데이터 파이프라인 데이터 웨어하우스에서 데이터를 변환하고 모델링하는 작업은 SQL을 작성하고, 파이프라인을 구축하고, 테스트하는 모든 과정하나하나 코드로 작성해야 했다. 나의 경우엔 예전에 포스팅했던 NES(notebook 환경)를 통해서 데이터 파이프 라인 작업을 하지만 가장 큰 문제가 정합성과 테스트가 문제였다. (+데이터 카탈로그의 부재도 한몫한다)파이썬 + sql + numpy로 동작하는 작업에서 저장되는 데이터가 한곳이 아닌 여러곳이였으며(심지어 외부 저장소도 있었다.. ) 데이터 정합성과 실패에 대한 대책을 코드로 하다보니, 데이터 칼럼이 변경되거나, 로직이 변경되면 난리도 아니였다. (변경되는 해당 칼럼이 적용된 파이프라인만 찾는것도 하루가 걸린적이..)그래서 찾아보다가 dbt를 사용해서 transform을..

[개인프로젝트] 나만의 추천시스템 만들기 (2) 이전 포스팅 : https://uiandwe.tistory.com/1483 1편에 이어 추천시스템 개선을 해보려 합니다.이번 주요 사항은 sklearn의 기본 vector 함수를 사용하는게 아닌, bert모델을 사용하여 vector 임베딩을 하고, 해당 벡터 값을 통해 추천시스템을 만드는겁니다. bert 모델을 사용한 간단한 추천 구현전체적인 로직은 다음과 같습니다. 1편과 내용이 똑같아서 코드는 제외했습니다. 아래의 내용은 이번 글에서는 제외했습니다. 1. 데이터 수집 : wanted에서 데이터를 수집해 옵니다. (크롤링) 2. 수집된 내용을 사용자 평가 (기본 데이터로 쓰임) 3. 데이터 저장 : 이미지 ..

[개인프로젝트] 나만의 추천시스템 만들기 (1) 요즘 한창 원티드를 기웃 거리고 있는 중, 추천 포지션과 기업들이 이상하게 나오는게 눈에 띄었다.이력서에 넣지도 않은 프론트엔드 관련 jd의 합격 예측이 90%가 넘어가는거. 대체 왜? 라는 의문과 함께 한번 나만의 추천을 만들어볼까? 하는 마음에 시작하게 되었다. 1. 추천시스템?서비스에는 다양한 종류의 콘텐츠 및 상품을 추천하는 서비스들이 있습니다. 기본적으로는 아이템기반과 유저 기반을 나눌수 있습니다.유저기반 : 나와 비슷한 사람이 본 컨텐츠를 추천아이템 : 내가 본 아이템과 비슷한 아이템 추천이중에서 나는 다른 사람의 데이터는 알수 없으므로, 아이템 기반으로 가닥을 잡았습니다. 구축하려는 것은 Multi-stage recommendation system을 통해 범용 시스템을 개발해보려 합니..

[MLOps] Triton을 활용한 모델 배포 스마일게이트에서 제공한 데이터를 기반으로 욕설분류 bert 모델을 만들었다. 기본 소스는 다음과 같다.https://colab.research.google.com/drive/1NKYYVSex__vde-lnYCmsRmyHjJhV6cKt?usp=sharing#scrollTo=Wi1qd6i8__Jl[위의 설명은 이전 포스팅인 https://uiandwe.tistory.com/1395 에 있다] 1.Triton Inference Server Triton Inference Server는 GPU 장비를 효과적으로 사용하면서 리소스 비용을 절약하기 위해 일종의 GPU전용 서버를 하나 만들어서 다양한 모델들을 서빙할수 있도록 돕는 추론 서버 역활을 맡은 고성능 추론에 최적화된 오픈소스 소프트웨어입니다. 다양한 모델..

ml를 쉽게 쓰기 위한 프론트 작업 몇주전 위의 영상을 보고 충격을 받았었다.내가 원하는건 "신기술을 통한 제품"을 만드는게 아니라 "사용자가 사용하기 쉬운 서비스"가 목표였었는데 말이다."너무 기술에만 매몰되어 있었을까?"하는 생각과 함께 누구나 접근하기 쉽게 하자는 생각이 들었다. 현재 팀에서는 LLM에 대한걸 내가 주도적으로 만들고, 기획자나 라벨러분들의 의견을 코딩하고, 결과값만 보여주는 형식으로 진행되고 있었다.결국 요청한 결과값을 보기위해서는 "내가 코딩하고 결과값까지 시간이 걸린다.""기획자와 라벨러가 바로 볼수 있게 만들면 되지 않아?" 이 쉬운 작업을 왜 안하고 있었을까? 하는 생각과 함께 오랜만에 프론트를 들여다 보았다. 지금 팀에서는 react를 프론트로 하고 있어서, react+zustand 조합으로 공부했다. (대충..

[system design] 이벤트 추천 시스템 1. 목표 - 사용자에게 개인화된 이벤트 목록을 표시하는 이벤트 추천 시스템을 설계 - 이벤트 : 이벤트 설명 / 가격 / 위치 / 날짜 / 시작과 종료가 있는 기간 으로 구성됨 - 다른 사용자를 이벤트에 초대하고 친구 관계를 형성 할 수 있다. - 주요 목표는 사용자에게 개인화된 이벤트 목록을 표시하는 이벤트 추천 시스템을 설계해야 한다. 이벤트의 정의는 일반 사이트의 특정 상품 / 특정 회사 제품에 대한 이벤트 일수도 / 게임 상점에서의 아이템 판매에 대한 이벤트등 다양한 계열을 볼수 있다. 일반적으로 표현하자면 특정한 기간안에 특정한 상품을 판매하는 행위로 정의할수 있다. 2. 랭킹 모델 LTR(Learning to Rank)는 지도 학습을 적용하여 순위 문제를 해결하는 알고리즘 기법의 하나로, '..

이전 1 2 다음

티스토리툴바