ML/인공지능 (11) 썸네일형 리스트형 [사내 해커톤] Stable Diffusion을 이용한 영상 가공 이번에도 어김없이 회사에서 해커톤이 열렸다. 주제는 "생성형 AI를 사용한 회사에 도움이 되는 서비스를 만들어" 였다. 일단 아이디어 도출에서 텍스트로 하는건 재미가 없으므로 패스했고, (프롬프트 튜닝은 너무 많이 해서 재미가 없다) 영상과 음성쪽으로 해보고 싶어서 가닥을 광고쪽으로 컨셉을 잡고 진행했다. 영상의 경우 기존 영상을 일부분만 수정하는 형태로 아이디어를 냈다. 예를 들어 사과를 소개하는 영상에서 사과 대신 배, 복숭아로 바꾸는 형태로 영상을 바꿔서 원하는 영상으로 교체하는것으로 생각했다. 간단한 예시는 다음과 같다. https://tilnote.io/pages/640adfbef4ea08b9071cc823 https://platform.stability.ai/docs/features/inpai.. NLP 기초 자연어 representation ML 흐름 1. 단어 임베딩 단어를 숫자로 표현하는것 == 단어의 벡터값를 보면 그 단어를 안다 단어와 단어의 의미를 수치화 했지만, 문장의 의미는 알수가 없음 2. RNN & seq2seq RNN == 데이터를 순서대로 넣으면(입력값) 값이 잘 나오네? *인코더 -> 압축 / 디코더 -> 확대 seq2seq == 문장(질문)의 단어를 순서대로 넣으면 문장(답변)을 순서대로 나오게끔! 순서대로 넣는건 입력값이 많아질수록 연산량이 폭팔적으로 증가 (무조건 순서대로 연상하므로 병렬 불가 ) -> 문장이 길어지면 앞에 값에 대한 의미가 사라짐 -> 순서가 들어간건 좋은데, 너무 많은 양은 어떻게 처리하지?? 3. 트랜스퍼머 트랜스포머 == 순서대로 넣긴하는데, 위치정보도 같이.. openapi chatGPT 사용기 https://openai.com/api/pricing/ Pricing OpenAI is an AI research and deployment company. Our mission is to ensure that artificial general intelligence benefits all of humanity. openai.com Ada 는 가장 빠른 모델이고 Davinci 는 가장 강력한 모델 가격은 1,000 토큰당 사용량이된다. 토큰은 답변으로 나온 단어 조각으로 생각할 수 있다. 여기서 1,000개의 토큰은 약 750개의 단어입니다. 처음 가입하면 $18달러를 준다. 이정도면 3개월 내내써도 문제 없을꺼 같다. 바로 사용 가능하도록 에디터창이 있다. https://beta.openai.com/.. 이상감지 소스 및 간략 설명 시계열의 일정한 패턴에서 이상치를 감지하는 여러가지 방법중 Isolation forest와 LSTM을 사용한 예제 입니다. 전체 소스 1. Isolation Forest 해당 데이터는 해가 떠있는것을 기준으로 하는 값이다. (정확히는 태양광 발전량이다.) 즉 해가 뜨지 않은 시간(저녁~새벽)에 데이터가 있다면 이상치가 된다. 데이터에 라벨링을 해 놓았다. 1은 정상 -1은 이상치를 나타낸다. 그래프로 표현한 값들 이상치는 저녁에 발생하며, 월에 따라 시간대가 달라진다. 모델 트레인, 해당 값들은 직접 for 문을 돌려서 가장 높은 값이 나올떄까지 연산한 값이다. (사실 너무 오버피팅 되었지만, 오히려 오버피팅된 값이 더 좋은 성능을 보였다. 아마도 새벽에 데이터가 있는 것을 확실하게 잡는것으로 보인다. .. 이상감지 (정리) https://www.youtube.com/watch?v=xPA6JyHFHew 1. 이상치(Anomaly)란? 기존 관측과는 상이하여 다른 메커니즘에 의해 생성되었다고 판단할만한 관측값 2. 이상탐지 목적 기회 탐지 Chance Discovery (Positive Anomaly) : 새로운 이상치 탐지 오류 탐지 Fault Discovery (Negative Anomaly) : 노이즈 제거 3. 입력 데이터의 특성 (input data) Time series(sequential) vs static univariate vs multivariate data type (binarr / categorical / continuous / hybrid ) relational vs inddependent well-kn.. random forest // isolation forest 공부한한 내용 정리 1. random forest 의사결정 트리가 여러 개 모인 것. 하나의 의사결정 트리는 훈련 데이터에 오버 피팅되는 경향이 있다. 오버 피팅을 해결하기 위해 여러 개의 결정 트리를 모아 random forest가 나왔다. 1.1 동작 Bagging : training set의 부분집합을 활용하여 트리 형성 (각각의 부분집한의 인스턴스는 중복될 수 있다) bagging features : training set의 feature별로 트리를 형성한다. classiify : 2번에서 여러 개의 트리를 통해 ground truth(경계선)을 형성한다. 랜덤 포레스트가 생성한 일부 트리는 overfitting 될 수 있지만, 많은 수의 트리를 생성함으로써 overfitting이 예측하는 데 있어 큰 영향을 미치지.. RNN // LSTM 공부한 내용 제가 공부한것을 끄적인 내용입니다. 자세한 내용은 아래 링크를 참조하는게 더욱 좋습니다. 1. RNN Recurrent Neural Network 순환신경망 히든 노드가 directed cycle 형성 인공신경망의 종류 음성 / 문자등 순차적인 데이터에 적합 1.2 내부 구조 내부에 루프를 가진 네트워크 == 정보의 지속성 상황에 맞게 RNN을 붙여서 사용한다. 1.3 RNN의 내부 구조식 ht (히든 노드)= tanh ( 이전 히든 노드 + 현재 input + bh) yt (출력값) = ht(히든노드) + by 1.4. RNN의 장기 의존성 문제 (the problem of long term dependencies) 적절한 정보와 그 정보가 필요한 곳과의 차이(Gap)가 적을 경우 RNN은 과거 정보를.. 신경 회로망 모델 파닥파닥~ 심심해서 다시 보는 신경망~ -_- 신경 회로망과 패턴 분류기와의 차이점 패턴 분류기는 심볼이 순차적으로 입력되며 내부의 계산 과정도 순차적으로 진행되어 내부에서 산술및 심볼 연산이 수행 된다. 분류기는 각 클래스의 일치 정도(matching score)를 계산한뒤 최대값을 갖는 클래스를 선택한다. 즉, 확률적 모델(probabilistic model)이 입력값과 가장 유사한 클래스 선택시 사용된다. 신경회로망에서는 첫번째 단계에서 n개의 이볅 연결을 통해 입력값이 병렬적으로 들어가서 병렬적으로 출력값을 다음 단계에 m개의 아날로그 선을 통해 전달한다.. 이때 최대값이 선택되어 확장된다. 두번쨰 단계에서는 각 m개 클래스에 대해 하나의 출력값만을 갖는다. 즉, 가장 일치도가 높은 클래스가 'h.. 이전 1 2 다음