본문 바로가기

ML

(48)
제주도 관광객 분석 중국 관광객에 대한 분석 중국이 제주도 대부분의 관광객을 차지(최대 95.7% - 2014년 08월) 각 연도 겨울엔 관광객이 감소추이 2015년 대한민국 중동호흡기증후군 유행으로 전체 관광객 감소 2017년 3월 3일 - 중국 정부는 한국 관광을 전면 금지(총 관광객 31.5% - 2017년 04월) 현재까지 코로나로 인해 감소 하였지만 증가 추이 전체 관광객 분석 일본은 전체적으로 감소 서구권의 증가 가을엔 말레이시아의 관광객 증가 겨울엔 태국의 증가
방한외국인데이터분석 https://nbviewer.org/github/uiandwe/TIL/blob/master/Machine_Running/%EB%B0%A9%ED%95%9C%EC%99%B8%EA%B5%AD%EC%9D%B8%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D.ipynb
이력서 자동 생성 - 로직 1. 모델 생성 2. API 서비스 - 스크랩핑을 통한 블로그 키워드 추출 ( tistory / medium / velog ) - 키워드 추출 제시 or 사용자가 키워드 입력(10개) - 결과 저장(생성된 자소서) - 다시 LSTM 실행 후 모델 생성 - 비용 절감을 위해 API 서비스+ 스크랩핑은 람다로 구현 예정 - 모델과 결과 저장은 s3 - 머신러닝은 시간이 너무 오래 걸려 일단은 자체 서버로 해결
object detection with yolo Object Detection 아는 척 하기 시작 1. Object Detection란? Object Detection == 물체 검출 즉, 카메라나 다른 센서를 이용하여 자동차, 사람, 동물, 물건 등을 검출. 추가로 이게 어떤 것을 검출 했는지 나타는 Classification(분류) 이란 단어를 사용 2. object detection Overview 3. Object Detection엔 이런 알고리즘이 쓰였어요 Nearest neighbor (NN): 학습 데이터셋을 저장한 후에, 예측 단계에서는 투입된 이미지와 가장 가까운 데이터의 레이블을 통해 예측 하는 방법 K-nearest neighbor (KNN) : NN은 하나의 레이어만 보고 판단한다. 많은 레이어를 보고 판단방법 Convolutio..
이상감지 소스 및 간략 설명 시계열의 일정한 패턴에서 이상치를 감지하는 여러가지 방법중 Isolation forest와 LSTM을 사용한 예제 입니다. 전체 소스 1. Isolation Forest 해당 데이터는 해가 떠있는것을 기준으로 하는 값이다. (정확히는 태양광 발전량이다.) 즉 해가 뜨지 않은 시간(저녁~새벽)에 데이터가 있다면 이상치가 된다. 데이터에 라벨링을 해 놓았다. 1은 정상 -1은 이상치를 나타낸다. 그래프로 표현한 값들 이상치는 저녁에 발생하며, 월에 따라 시간대가 달라진다. 모델 트레인, 해당 값들은 직접 for 문을 돌려서 가장 높은 값이 나올떄까지 연산한 값이다. (사실 너무 오버피팅 되었지만, 오히려 오버피팅된 값이 더 좋은 성능을 보였다. 아마도 새벽에 데이터가 있는 것을 확실하게 잡는것으로 보인다. ..
이상감지 (정리) https://www.youtube.com/watch?v=xPA6JyHFHew 1. 이상치(Anomaly)란? 기존 관측과는 상이하여 다른 메커니즘에 의해 생성되었다고 판단할만한 관측값 2. 이상탐지 목적 기회 탐지 Chance Discovery (Positive Anomaly) : 새로운 이상치 탐지 오류 탐지 Fault Discovery (Negative Anomaly) : 노이즈 제거 3. 입력 데이터의 특성 (input data) Time series(sequential) vs static univariate vs multivariate data type (binarr / categorical / continuous / hybrid ) relational vs inddependent well-kn..
random forest // isolation forest 공부한한 내용 정리 1. random forest 의사결정 트리가 여러 개 모인 것. 하나의 의사결정 트리는 훈련 데이터에 오버 피팅되는 경향이 있다. 오버 피팅을 해결하기 위해 여러 개의 결정 트리를 모아 random forest가 나왔다. 1.1 동작 Bagging : training set의 부분집합을 활용하여 트리 형성 (각각의 부분집한의 인스턴스는 중복될 수 있다) bagging features : training set의 feature별로 트리를 형성한다. classiify : 2번에서 여러 개의 트리를 통해 ground truth(경계선)을 형성한다. 랜덤 포레스트가 생성한 일부 트리는 overfitting 될 수 있지만, 많은 수의 트리를 생성함으로써 overfitting이 예측하는 데 있어 큰 영향을 미치지..
RNN // LSTM 공부한 내용 제가 공부한것을 끄적인 내용입니다. 자세한 내용은 아래 링크를 참조하는게 더욱 좋습니다. 1. RNN Recurrent Neural Network 순환신경망 히든 노드가 directed cycle 형성 인공신경망의 종류 음성 / 문자등 순차적인 데이터에 적합 1.2 내부 구조 내부에 루프를 가진 네트워크 == 정보의 지속성 상황에 맞게 RNN을 붙여서 사용한다. 1.3 RNN의 내부 구조식 ht (히든 노드)= tanh ( 이전 히든 노드 + 현재 input + bh) yt (출력값) = ht(히든노드) + by 1.4. RNN의 장기 의존성 문제 (the problem of long term dependencies) 적절한 정보와 그 정보가 필요한 곳과의 차이(Gap)가 적을 경우 RNN은 과거 정보를..