본문 바로가기

ML/인공지능

(16)

[논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach https://arxiv.org/pdf/1907.11692 결론기존 BERT 성능을 다음을 통해 향상 시킬 수 있었음• 더 많은 데이터에 대한 더 큰 배치 사이즈를 사용해 더 오래 학습• NSP 삭제• Dynamic Masking• 더 많은 sequence로 학습을 통해성능 향상 요약언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 다양한 접근 방식을 신중하게 비교하기는 어렵습니다. 훈련은 계산 비용이 많이 들고, 종종 다양한 크기의 비공개 데이터 세트에서 수행되며, 많은 주요 하이퍼파라미터와 학습 데이터 크기의 영향을 측정합니다. 그 결과, BERT는 훈련이 상당히 부족했으며, 그 이후에 발표된 모든 모델의 성능과 일치하거나 능가할 수 있는 것으로 나타났습니다.이전에 간과되었던 설계 선택의 중..

[논문 리뷰] SPLADE: Sparse Lexical and Expansion Modelfor First Stage Ranking 3줄 요약 SPLADE를 사용하면 fine-tuning 필요 없이 더 빠르고 정확한 검색이 가능합니다. 하지만 기존 성능에 비해 크게 향상은 되지 않고 잘못된 semantic 검색도 야기됩니다. Abstract 문서와 쿼리에 대한 희소 표현을 학습하는 것에 대한 관심이 높아지고 있다. 명시적 희소성 정규화와 용어 가중치에 대한 새로운 랭커를 제시하여 고도로 희소한 표현과 비교하여 경쟁력 있는 결과를 이끌어낼수 있다. introduction SPLADE는 효율적인 문서 확장을 수행하며, 고밀도 모델을 위한 복잡한 훈련 파이프라인에 대해 경쟁력 있는 결과를 보여준다. 희소 정규화를 제어하여 효율성(부동 소수점 연산 횟수)과 효과 사이의 균형에 영향을 줄 수 있는 방법을 보여줍니다. RELATED WORKS ..

[논문 리뷰]ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 요약 re-ranking은 colbert를 사용하자. ABSTRACT 정보검색(IR)에서 문서 랭킹을 위한 언어 모델(LM)은 fine-tuning을 통해 빠르게 성장하고 있다. 더욱 효율적인 검색을 위해 LM(특히, BERT)을 적용하는 새로운 랭킹 모델인 ColBERT를 소개한다. introduction ELMo 및 BERT는 사전 학습된 심층 언어 모델(LM)을 미세 조정하여 관련성을 추정하는 접근 방식이 최근에 등장했다. 하지만 BERT 기반 모델은 이전 모델보다 100-1000배 더 계산 비용이 많이 들며, 일부 모델 또한 저렴하지도 않다 BERT는 검색 정밀도를 크게 개선했지만, GPU를 사용하더라도 지연 시간을 최대 수만 밀리초까지 증가시킨다. 쿼리 응답 시간이 100밀리초만 증가해도 사용자..

[논문 리뷰] T-RAG: LESSONS FROM THE LLM TRENCHES https://arxiv.org/pdf/2402.07483.pdf 요약 해당 문서에는 전반적인 RAG설명과 함께 Tree를 이용한 계층적 엔티티를 사용하면 기존 RAG보자 성능을 향상 시킬수 있습니다. 단 기존 RAG와 마찬가지로 리트리버 쿼리의 질문이 중요하며, Tree 구조를 쓸 수 있을때에만 효과를 발휘할수 있습니다. ( 엔티티의 데이터가 필요 없는 질문에 사용하면 오히려 데이터의 정답율이 하락합니다) Abstract 대규모 언어 모델(LLM)은 놀라운 언어 기능을 보여주며 다양한 영역의 애플리케이션에 통합하려 시도하고 있습니다. 검색 증강 세대(RAG)는 LLM 기반 애플리케이션을 구축하기 접합한 프레임워크로 부상했습니다. RAG를 구축하는 것은 비교적 간단하지만, 견고하고 안정적인 애플리케이션을..

[사내 해커톤] ocr + gpt를 이용한 식품 성분 분석 및 추천 * 상품 점보를 사진을 업로드 하면 자동으로 텍스트로 변환하여 상품에 대한 정보 요약 * 제품명 / 제조회사 / 제품유형 / 맛 / 용량 / 원료 / 칼로리 / 영양정보 로 추려서 보여줌 * 사용자의 상태를 선택하여 입력하면 섭취 권장 여부 및 이유를 고객에게 요약 후 보여줌 팀으로 이뤄서 한 해커톤 결과물 - 역시 프롬프트는 영어로 하니까 잘된다. - OCR은 네이버 클로바를 썼다. 정말 잘된다!! (하지만 하루 100건 무료를 넘어서면 엄청난 과금이 기다리고 있다) - streamlit은 이번에 처음 써봤는데, 다시는 쓰기 싫을 정도로 너무 제한적이다. (공식 문서도 부족하고, 버전마다 기능이 너무 다르다. html이 쉽고 좋다) 향후 발전해야 할 부분들 - 상황에 맞는 프롬프트가 많이 있어야 한다...

[사내 해커톤] Stable Diffusion을 이용한 영상 가공 이번에도 어김없이 회사에서 해커톤이 열렸다. 주제는 "생성형 AI를 사용한 회사에 도움이 되는 서비스를 만들어" 였다. 일단 아이디어 도출에서 텍스트로 하는건 재미가 없으므로 패스했고, (프롬프트 튜닝은 너무 많이 해서 재미가 없다) 영상과 음성쪽으로 해보고 싶어서 가닥을 광고쪽으로 컨셉을 잡고 진행했다. 영상의 경우 기존 영상을 일부분만 수정하는 형태로 아이디어를 냈다. 예를 들어 사과를 소개하는 영상에서 사과 대신 배, 복숭아로 바꾸는 형태로 영상을 바꿔서 원하는 영상으로 교체하는것으로 생각했다. 간단한 예시는 다음과 같다. https://tilnote.io/pages/640adfbef4ea08b9071cc823 https://platform.stability.ai/docs/features/inpai..

NLP 기초 자연어 representation ML 흐름 1. 단어 임베딩 단어를 숫자로 표현하는것 == 단어의 벡터값를 보면 그 단어를 안다 단어와 단어의 의미를 수치화 했지만, 문장의 의미는 알수가 없음 2. RNN & seq2seq RNN == 데이터를 순서대로 넣으면(입력값) 값이 잘 나오네? *인코더 -> 압축 / 디코더 -> 확대 seq2seq == 문장(질문)의 단어를 순서대로 넣으면 문장(답변)을 순서대로 나오게끔! 순서대로 넣는건 입력값이 많아질수록 연산량이 폭팔적으로 증가 (무조건 순서대로 연상하므로 병렬 불가 ) -> 문장이 길어지면 앞에 값에 대한 의미가 사라짐 -> 순서가 들어간건 좋은데, 너무 많은 양은 어떻게 처리하지?? 3. 트랜스퍼머 트랜스포머 == 순서대로 넣긴하는데, 위치정보도 같이..

openapi chatGPT 사용기 https://openai.com/api/pricing/ Pricing OpenAI is an AI research and deployment company. Our mission is to ensure that artificial general intelligence benefits all of humanity. openai.com Ada 는 가장 빠른 모델이고 Davinci 는 가장 강력한 모델 가격은 1,000 토큰당 사용량이된다. 토큰은 답변으로 나온 단어 조각으로 생각할 수 있다. 여기서 1,000개의 토큰은 약 750개의 단어입니다. 처음 가입하면 $18달러를 준다. 이정도면 3개월 내내써도 문제 없을꺼 같다. 바로 사용 가능하도록 에디터창이 있다. https://beta.openai.com/..

이전 1 2 다음

티스토리툴바