본문 바로가기

세계정복의주인장

(1176)
나의 ML 수학 + 기초 공부 (계속 진행중) 회사에서의 업무가 데이터 관리 + MLops + 모델 학습까지 하기 때문에 ML 공부도 꾸준히 하고 있었다. 여기에는 그동안 수학 + ML 공부를 한 유툽을 기록한다. (MLops관련은 따로 포스팅 하도록 하겠다) 수학 (선형대수학) https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab Essence of linear algebra A free course offering the core concept of linear algebra with a visuals-first approach. www.youtube.com 논문 읽기 https://www.youtube.com/@dsba2979/videos 고려대학교 산업경영공학부 DS..
나의 ML 수학 공부 - 완전 기초부터 (진행중) 나의 업무가 ML 모델쪽이 되어 버렸다.. 사실 책과 인터넷을 보면서 모델은 만들 수 있는데, 논문을 보면 정확히 이게 왜 쓰이는지 알수가 없었다. (그냥 좋아서 쓰나? 하면서 넘어갔다. 블로그 글에 수학이 나오면 무슨 이야기 인지 몰라 그냥 넘겼다) ML의 근본 내용을 알기 위해선 수학이 필요하다고 생각해서, 수학 공부를 시작했다. 1. 대수학 https://www.udemy.com/course/algebra-master/ 일단 방정식의 기본 개념부터 잡고 시작하기. (할인 할때 사자! 만오천원에 살 수 있다) 선형대수학이 아님!! 대수학이다. 위의 강좌를 끝마치고 ebs의 관련 강좌를 봤다. (위의 강좌에서는 문제가 많이 없어서 ebs를 보면서 문제를 다시 풀었다) https://mid.ebs.co...
[leetcode] 슬라이딩 윈도우 https://leetcode.com/problems/max-consecutive-ones-iii/ https://leetcode.com/problems/maximize-the-confusion-of-an-exam/description/ https://leetcode.com/problems/get-equal-substrings-within-budget/description/
hanspell 오류 JSONDecodeError: Expecting value; line1 column 1(char0) (23-04-07 업데이트) 네이버 맞춤법 검사기를 해당 패키지가 사용중이지만, 계속 바뀌고 있는 중인거 같다. https://github.com/ssut/py-hanspell/issues/31#issuecomment-1499111284 JSONDecodeError: Expecting value; line1 column 1(char0) 오류 · Issue #31 · ssut/py-hanspell 안녕하세요. 기존에 hanspell을 사용하여 프로젝트를 하고 있는 컴퓨터공학과 학생입니다. 다름이 아니라, 며칠 전까지만 해도 오류 없이 잘 실행되던 코드가 제목과 같이 오류가 생성되어 이렇게 github.com 여기 이슈를 확인하고 수정하길 바랍니다. 아래 글은 참조하지 마세요!!!!!!!!!!!!!!! ==..
postgresql 한글 order by의 기준 select * from store order by store_nm; sql로 분명히 한글 정렬했는데, 이상하게 정렬이 되어버렸다. 보는 바와 같이 위쪽은 가나다순으로 잘 나오다가 자릿수가 더 많은 stirng에서 다시 내림차순으로 정렬이 되고 있었다. postgre에서는 정렬이 어떤 기준으로 되는걸까? PostgreSQL 시스템 카탈로그는 PostgreSQL의 관리 시스템이 사용하는 테이블에서 데이터베이스 및 테이블 등의 정보를 다음의 칼럼으로 관리한다. 위의 칼럼중 우리가 볼 칼럼은 datcollate이다. 다음의 쿼리를 실행하면 데이터베이스 마다 설정된 값을 볼수 있다. select datname, datdba, encoding, datcollate, datctype from pg_database;..
BM25(Okapi BM25) 바쁘신 분들을 위한 결론 BM25는 단어의 빈도수가 같을 경우 문서의 길이가 길수록 낮은 score를 가진다. 다른 문서에 잘 등장하지 않는 단어 a를 포함한 문서는 a의 빈도수가 높지 않아도 높은 score를 가진다. 같은 단어가 너무 많이 등장하면 낮은 score를 가진다. BM25 : 키워드 기반의 랭킹 알고리즘 BM25(a.k.a Okapi BM25)는 주어진 쿼리에 대해 문서와의 연관성을 평가하는 랭킹 알고리즘으로, TF-IDF 계열의 검색 알고리즘 중 SOTA(State-of-the-art) 엘라스틱서치에서도 ElasticSearch 5.0서부터 기본(default) 유사도 알고리즘으로 BM25 알고리즘을 채택 BM25 살펴보기 BM25는 Bag-of-words 개념을 사용하여 쿼리에 있는 용..
[baekjoon] dfs / bfs https://www.acmicpc.net/problem/4963 4963번: 섬의 개수입력은 여러 개의 테스트 케이스로 이루어져 있다. 각 테스트 케이스의 첫째 줄에는 지도의 너비 w와 높이 h가 주어진다. w와 h는 50보다 작거나 같은 양의 정수이다. 둘째 줄부터 h개 줄에는 지도www.acmicpc.net https://www.acmicpc.net/problem/2468
NLP 기초 자연어 representation ML 흐름 1. 단어 임베딩 단어를 숫자로 표현하는것 == 단어의 벡터값를 보면 그 단어를 안다 단어와 단어의 의미를 수치화 했지만, 문장의 의미는 알수가 없음 2. RNN & seq2seq RNN == 데이터를 순서대로 넣으면(입력값) 값이 잘 나오네? *인코더 -> 압축 / 디코더 -> 확대 seq2seq == 문장(질문)의 단어를 순서대로 넣으면 문장(답변)을 순서대로 나오게끔! 순서대로 넣는건 입력값이 많아질수록 연산량이 폭팔적으로 증가 (무조건 순서대로 연상하므로 병렬 불가 ) -> 문장이 길어지면 앞에 값에 대한 의미가 사라짐 -> 순서가 들어간건 좋은데, 너무 많은 양은 어떻게 처리하지?? 3. 트랜스퍼머 트랜스포머 == 순서대로 넣긴하는데, 위치정보도 같이..