세계정복의주인장 (1188) 썸네일형 리스트형 Elasticsearch k-NN 알고리즘 자연어 처리(NLP) 시스템, 추천 엔진, 검색 기반 시스템과 같은 머신 러닝(ML) 애플리케이션을 구축할 때, 일정 수준 이상의 규모가 되면 k-Nearest Neighbor(k-NN) 검색을 활용된다. 데이터가 수억 개에서 수십억 개까지 늘어나면, k-NN 검색을 확장하는 것이 큰 도전 과제가 된다.이러한 문제를 해결하기 위해 Approximate k-Nearest Neighbor (ANN) 검색이 등장했다. ANN은 k-NN 문제의 일부 제약을 완화함으로써 검색 속도를 획기적으로 줄일 수 있는 방법을 제공한다. 벡터 검색을 이해하는 쉬운 방법은 전통적인 어휘 검색(Lexical Search) 과 비교해보자. 우리가 익숙한 엘라스틱서치의 어휘 검색은 사용자가 입력한 단어나 그 변형(어간, 동의어 등).. airflow + dbt 를 활용한 데이터 파이프라인 데이터 웨어하우스에서 데이터를 변환하고 모델링하는 작업은 SQL을 작성하고, 파이프라인을 구축하고, 테스트하는 모든 과정하나하나 코드로 작성해야 했다. 나의 경우엔 예전에 포스팅했던 NES(notebook 환경)를 통해서 데이터 파이프 라인 작업을 하지만 가장 큰 문제가 정합성과 테스트가 문제였다. (+데이터 카탈로그의 부재도 한몫한다)파이썬 + sql + numpy로 동작하는 작업에서 저장되는 데이터가 한곳이 아닌 여러곳이였으며(심지어 외부 저장소도 있었다.. ) 데이터 정합성과 실패에 대한 대책을 코드로 하다보니, 데이터 칼럼이 변경되거나, 로직이 변경되면 난리도 아니였다. (변경되는 해당 칼럼이 적용된 파이프라인만 찾는것도 하루가 걸린적이..)그래서 찾아보다가 dbt를 사용해서 transform을.. 인터넷 연결이 안되었는데 youtube 페이지는 어떻게 나오는걸까? 1. 인터넷을 연결해주세요나는 항상 모뎀을 끄고 다닌다. 굳이 내가 없는 집에 전기세가 아까우니까. 집에 와서 컴퓨터를 키면 몇 초 정도 인터넷이 되지 않아, 유투브에 들어가면 위와 같은 화면이 나를 반긴다. 근데...인터넷이 연결되지 않았는데 어떻게 화면이 그려지지??? 답은 캐싱이다. 더 정확히는 서비스 워커를 이용한 캐싱이다. 서비스 워커는 웹사이트의 리소스(HTML, CSS, JavaScript, 이미지 등)를 브라우저의 캐시에 저장하고, 오프라인 상태에서도 이 캐시된 리소스를 사용할 수 있게 한다. 유투브 이름으로 된 저장소를 보면 offline상태에서 실행되는 js를 확인할수 있다. 2. 서비스 워커(Service Worker)서비스 워커는 웹 애플리케이션의 성능을 향상시키고, 오프라인 기능.. [3] 이력서 챗봇 만들기 - postgreSQL pg_vector LLM에서 출력되는 벡터를 저장하고 검색하기 위해서 postgreSQL을 사용하여 벡터 검색을 하려 한다.먼저 postgreSQL은 RDS를 사용할것이다! (1년간 무료!)접속은 ec2에서만 접근가능하도록 퍼블릭 연결은 차단한다.1. 설치 ec2에서 먼서 postgreSQL 패키지 설치를 해야 한다.pgvector extension를 ec2에 설치 후 해당 설치 파일을 postgreSQL에 설치하는 방식이다.$ sudo apt update$ sudo apt install postgresql postgresql-contrib### pgvector 직접 설치$ sudo apt install postgresql-server-dev-16$ cd /tmp$ git clone --branch v0.8.0 https.. fastapi로 server sent event 구현 실습 실시간 주식 데이터를 제공하는 서비스를 생각해보자. 해당 데이터는 주식 시작과 함께 끊임없이 데이터가 변경된다. 그리고 해당 화면을 보는 유저는 계속해서 데이터를 제공받아야 한다.클아이언트와 서버 개발자는 이걸 어떻게 개발해야 할까? (1초마다 데이터를 갱신한다고 가정하겠다.) 아마도 아래의 두가지를 생각할수 있다.1. 1초마다 서버에 get 요청을 받은 후 화면 갱신2. 스트림 데이터를 통해 1초마다 데이터를 받은 후 화면 갱신 1번 "1초마다 서버에 get 요청을 받은 후 화면 갱신" 일 경우 http 커넥션이 계속해서 발생하게 된다. 통신은 기본적으로 steless이므로 서버는 어떤 사용자가 어떤 데이터를 원하는지 계속해서 탐색해야 하는 상황이 된다. 2번 "스트림 데이터를 통해 1초마다 데이터.. [2] 챗봇 프론트 화면을 만들어보자. 이번에는 리액트로 간단한 채팅 창을 만들어보고 배포하려고 합니다.간단하게 챗GPT의 화면과 비슷하게 만들었습니다. 1. 리액트 코드 먼저, 프로젝트를 설정하기 위해 다음 명령어를 사용하여 새로운 리액트 애플리케이션을 생성npx create-react-app chat-appcd chat-app src/App.jsimport React, { useState, useEffect, useRef } from "react";import "./App.css";function App() { const [messages, setMessages] = useState([]); const [inputValue, setInputValue] = useState(""); const messagesEndRef = useRef(.. [1] 이력서 챗봇 만들기 - LLM 설정 및 서버 적용 1. 모델 선택 먼저 임베딩 모델을 선택해야 한다. 계속 써오던 multilingual-e5 모델을 다시 쓸까 했는데, 마침 새로운 모델중에서 한국어 수치도 좋은 것들이 많아서 새로나온 모델을 선택해봤다.아래는 최근에 만들어진 고려대학교의 모델이다. 오!! 괜찬은 성능이라 판단해서 해당 모델로 선택했다.https://github.com/nlpai-lab/KUREnlpai-lab/KURE-v10.526400.605510.605510.55784dragonkue/BGE-m3-ko0.523610.603940.603940.55535BAAI/bge-m30.517780.598460.598460.54998Snowflake/snowflake-arctic-embed-l-v2.00.512460.593840.593840.5.. 게임 거래소 아키텍처 설계 (전세계 검색기) https://www.youtube.com/watch?v=TYkQB2LZS3E 그냥 멍하니 유툽을 보다가 궁금해졌다.위에 나오는 아이템 검색기를 어떻게 구현했을까? (그것도 전세계 사용자들이 올린 아이템을 실시간으로 검색한다. 그것도 나라마다 언어가 다른데 검색이 된다???) 1. 문제일단 내가 세운 조건은 다음과 같다.- 엄청나게 많은 데이터를 저장할 디비(초당 1000개로 설정)- 아이템의 많은 속성들- 전세계에서 검색가능해야함 (실시간 아이템 검색이 아닌 약간의 지연 상관없음 - 아이템을 올린 후 1분후에 검색되도 상관없음)- 언어가 다르지만 검색되어야함 (4개국어로 설정) 검색시의 검색 필터값은 다음과 같다.아이템의 검색 조건은 이름과 성능 / 거래조건으로 나뉘며, 아이템의 이름은 하나뿐이지만 .. 이전 1 2 3 4 ··· 149 다음