본문 바로가기

전체 글

(1202)
[25 Computer Papers] 3. Bigtable: A Distributed Storage System for Structured Data https://storage.googleapis.com/gweb-research2023-media/pubtools/4443.pdf   IntroductionBigtable은 대규모(페타바이트 단위) 구조화된 데이터를 관리하기 위한 분산형 스토리지 시스템입니다.웹 인덱싱, Google 어스, Google 파이낸스 등 Google의 많은 프로젝트에서 Bigtable에 데이터를 저장하고 있습니다. Bigtable은 광범위한 적용성, 확장성, 고성능, 고가용성 등 여러 가지 목표를 달성했습니다.여러 면에서 Bigtable은 데이터베이스와 유사하지만 완전한 관계형 데이터 모델을 지원하지는 않습니다. 클라이언트에 데이터 레이아웃과 형식에 대한 동적 제어를 지원하는 간단한 데이터 모델을 제공합니다.빅테이블 스키마 매..
디비 개선 작업 + cluster 사건의 발단.DB CPU가 100%에서 내려오질 않는다. (심지어 락 걸린것도 아님)로그 테이블을 조회하는 쿼리였는데, 요 몇일 사용자가 늘어서 그런지 집계할때에 자원을 계속 소모해서 하루종일 알림이 울렸다.. 일단 쿼리 explain 실행 계획을 데이터를 살펴보았는데 특별히 나쁜 점은 없지만 인덱스를 잘못타고 있었고, 정렬이 필요한 쿼리에서 bitmap scan을 통해 읽은 다음 다시 재정렬하는 과정을 거치고 있었다.(메모리 낭비- work_mem를 잡아먹는 쿼리가 된다.) 일단 급한 CPU사용량은 쿼리 수정과 함께 인덱스를 추가해서 일단락되었지만, 앞으로도 데이터가 계속 쌓이는 로그 테이블이여서 bitmap csan을 seq scan으로 바꾸고 싶었다. -> Nested Loop (cost=22..
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions https://arxiv.org/pdf/2404.13208  요약프롬프트상에서 사용자의 프롬프트를 막게 되면 답변의 질이 떨어지게 된다.모델 생성시 보안에 대한 추가적인 학습을 통해서 해야만 좋은 성능을 보일수 있다. (일반 프롬프트단에서는 방법없음..괜히 읽었나…) Abstract오늘날의 LLM은 프롬프트 인젝션, 탈옥 및 기타 공격에 취약하여 공격자가 모델의 원래 지침을 악의적인 프롬프트로 덮어쓸 수 있습니다.이 연구에서는 이러한 공격의 근간이 되는 주요 취약점 중 하나는 LLM이 시스템 프롬프트(예: 애플리케이션 개발자의 텍스트)를 신뢰할 수 없는 사용자 및 제3자가 보낸 텍스트와 동일한 우선순위로 간주하는 경우가 많다는 점이라고 주장합니다.이 문제를 해결하기 위해 우선순위가 다른 명령어가 충돌할 ..
[25 Computer Papers] 2. Dynamo: Amazon’s Highly Available key-value Store https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf  요약key-value 스토어가 필요해서 그냥 구현함 (조인 같은 기능이 필요없었음)시스템은 분산되어야 하며 하드웨어에 제약을 받지 않으면서 영속성은 필요했음해시링에 구현 전략 설명서동시 업데이트시 데이터 충돌을 피하기 위해 낙관적락으로 구현  ABSTRACTAmazon의 핵심 서비스 중 일부가 '상시 가동'을 제공하기 위해 사용하는 고가용성 키-값 스토리지 시스템인 Dynamo의 설계와 구현에 대해 설명한다. 이러한 수준의 가용성을 달성하기 위해 Dynamo는 특정 장애 시나리오에서 일관성을 희생한다.  1 introuductionAmazon은 전 세계 여러 데이터 센터에 위치한..
[25 Computer Papers] 1. The Google File System https://static.googleusercontent.com/media/research.google.com/ko//archive/gfs-sosp2003.pdf요약GFS는 엄청나게 많은 데이터를 보유해야 하는 구글의 핵심 데이터 스토리지와 구글 검색 엔진을 위해 최적화.파일들은 64MB로 고정된 청크로 데이터가 추가되거나 읽기 위주의 작업이며, 데이터 유실에 대한 설계를 중심으로 레이턴시가 길더라도 높은 스루풋에 중점을 두었다.  1. Introduction첫째, 파일 시스템은 저렴한 비용으로 구축된 수백, 수천 대의 스토리지 머신으로 구성되며 비슷한 수의 클라이언트 머신에서 액세스 된다. 일부 구성 요소는 언제든 작동하지 않을 수 있고, 일부는 현재 장애가 발생해도 복구되지 않을 수 있어 지속적인 ..
[엄마친구아들] 그거 시간표 안될텐데요? https://www.youtube.com/watch?v=4M8Xv_GOUsc요즘 보는 드라마의 한장면에서 주인공이 코딩으로 계획표를 만드는 부분이 나왔다. (youtube 제목도 코딩으로 생활 꼐획표 짜는 상위 0.01% 천재..)보자마자 "저거 안될텐데?" 라는 생각부터 들기 시작한건...직업병인가? 일단 시작부터 python 문법인데, 파일명이 indexj.jsp 다. (뭐 이런건 사소한거니 넘어가고)  드라마에서 만든 계획표... 파이썬으로 이거 못만들어요...ㅋㅋ (그래픽 모듈을 써야 가능)   일단 matplotlib 을 기준으로 만들어보았다. 간단하게 파이차트를 활용해서 만들면 되지 않을까 싶었다.import matplotlib.pyplot as pltactivities = [ "꿈나라..
Error: unsupported locale setting File /opt/conda/lib/python3.11/locale.py:626, in setlocale(category, locale) 623 if locale and not isinstance(locale, _builtin_str): 624 # convert to string 625 locale = normalize(_build_localename(locale))--> 626 return _setlocale(category, locale)Error: unsupported locale setting한글 텍스트 분석을 하는 도중 위와 같이 에러가 발생했습니다. 아래 명령어를 통해 셋팅하는 과정에서 발생한 에러입니다.locale.setlocale(locale.LC_ALL, '..
[개인프로젝트] 나만의 추천시스템 만들기 (2) 이전 포스팅  :  https://uiandwe.tistory.com/1483 1편에 이어 추천시스템 개선을 해보려 합니다.이번 주요 사항은 sklearn의 기본 vector 함수를 사용하는게 아닌, bert모델을 사용하여 vector 임베딩을 하고, 해당 벡터 값을 통해 추천시스템을 만드는겁니다. bert 모델을 사용한 간단한 추천 구현전체적인 로직은 다음과 같습니다.  1편과 내용이 똑같아서 코드는 제외했습니다. 아래의 내용은 이번 글에서는 제외했습니다. 1. 데이터 수집 : wanted에서 데이터를 수집해 옵니다. (크롤링)                 2. 수집된 내용을 사용자 평가 (기본 데이터로 쓰임)                                    3. 데이터 저장 : 이미지 ..