본문 바로가기

ML/LLM

(15)
[논문리뷰] Lost in the Middle: Models Use Long Contexts https://arxiv.org/pdf/2307.03172.pdf 요약 : 컨텍스트의 앞과 뒤에 중요한 문맥이 있다면 잘 알아듣는다. 중간에 있다면 품질이 떨어진다. Abstract 최근의 언어 모델에는 긴 문맥 입력시 얼마나 잘 동작하는지 알려진 바가 거의 없습니다. 이 논문은 다중 문서 질문 답변과 키-값 검색에 대한 두 가지 작업에 대한 언어 모델의 성능을 분석합니다. 특히나 문맥 정보의 위치 변경시 현재 언어 모델이 긴 입력 컨텍스트에서 정보를 제대로 활용하지 못한다는 것을 나타냅니다. 특히 중요한 정보가 문맥의 시작 또는 입력 컨텍스트의 끝에서 발생하며, 모델이 관련 정보에 액세스해야 할 때 혹은 긴 컨텍스트에 대해서 성능이 크게 저하됩니다. Introduction 언어 모델은 대화형 인터페이스..
3. 벡터 임베딩를 활용한 성과 지표 (다중 분류 문제) 벡터 임베딩으로 구현한 모델에 대한 "평가 지표 구성을 어떻게 할것인가" 글입니다. 1. 무엇을 측정할것인가? 해당 모델의 목표는 사용자가 임의의 질의를 했을때 설정된 알맞은 대답(답변 약 100개 중 하나)을 리턴하는 모델(faq 챗봇)입니다. 벡터 임베딩으로 텍스트를 벡터화 하고, 가장 유사한 벡터가 정답으로 간주되며 해당 값을 리턴하는 방식입니다. 설정된 여러개의 답변중 하나를 찾기 때문에 해당 모델은 다중 분류 성과 지표를 따라야 한다고 판단했습니다. 다중 분류 문제에서 일반적으로 사용되는 성과 지표는 혼동 행렬 (Confusion matrix)로 표현이 가능합니다. 정확도(Accuracy): 올바른 분류의 비율을 나타내는 지표입니다. F1 점수(F1 score): 정확도와 재현율의 조화 평균을 ..
2-1. vector embedding 구현하기 (with faiss) 2 vector embedding 구현하기 (with elastic search)에서 이어집니다.[ https://uiandwe.tistory.com/1398] elastic search에서 지원하는 Dense Vector칼럼의 차원 수는 최대 2048입니다. 즉, LLM에서 임베딩된 길이가 2048 이상인 경우엔 해당 모델은 elastic search에서 사용할수 없습니다. 저의 경우 4096 차원을 가진 모델로 테스트 하려 했지만 아래와 같은 에러 메시지와 함께 실행되지 않았습니다. BadRequestError(400, 'mapper_parsing_exception', 'The number of dimensions for field [question_embedding] should be in the ..
1. 비속어 탐지 모델 만들기 (with bert) 해당 글은 스마일게이트의 비속어 데이터셋을 바탕으로 비속어 탐지 모델을 개발한 내용입니다. 데이터에 대한 자세한 사항은 아래의 링크들을 확인하시면 됩니다. 욕설 모델 + 배포하기 [GitHub - smilegate-ai/korean_unsmile_dataset](https://github.com/smilegate-ai/korean_unsmile_dataset) https://colab.research.google.com/drive/1NKYYVSex__vde-lnYCmsRmyHjJhV6cKt?usp=sharing#scrollTo=Wi1qd6i8__Jl Smilegate-AI UnSmile dataset fine-tuning tutorial.ipynb Colaboratory notebook colab.res..
2. vector embedding 구현하기 (with elastic search) 1. vector embedding 소개 글에서 이어집니다. [https://uiandwe.tistory.com/1397] 앞썬 포스팅에서는 vector embedding에 대한 기술적인 설명과 함께 함께 사용되는 벡터 디비에 대해서 설명하였습니다. 이번 포스팅에서는 LLM모델을 사용해서 embedding을 구현하고 간단한 Faq가 할수 있도록 초안 코드를 작성해보도록 하겠습니다. 해당 포스팅의 전체 코드는 다음과 같습니다. (벡터디비가 필요하므로, colab에서 하실경우 따로 saas형태의 디비를 구축하셔야 합니다.) 다음의 라이브러리를 설치해야 합니다. !pip install transformers !pip install elasticsearch 1. 모델 선언 및 임베딩 함수 작성 해당 코드는 mu..
1. vector embedding 이란? Abstract: 자연어 처리 분야에서 많은 관심을 받고 있는 Vector Embedding 기술이 챗봇 개발에 어떻게 적용되고 있는지에 대해 탐구합니다. 이 글에서는 챗봇이 대화 상대와의 의미 있는 상호 작용을 달성하기 위해 텍스트를 벡터 공간으로 변환하는 방법과 그것이 어떻게 챗봇의 성능 향상에 기여하는지에 대해 다룰 것입니다. 또한, 다양한 벡터 임베딩 기술과 그 활용 사례들을 살펴보며, 이를 통해 챗봇의 자연스러운 대화 능력 향상에 어떻게 기여할 수 있는지를 분석합니다. 1.1 벡터 임베딩이란? 챗봇의 가장 중요한 기능은 바로 사용자가 입력한 문장의 의미를 알아야 하는것입니다. 검색이라면 단순히 검색어가 일치한 것을 찾아내면 되지만 채팅이기 때문에 사용자의 문맥의 의미를 알아야 합니다. 사용자가 ..
llama2 / mistral fine tuning (with autotrain) llama2과 mistral 모델의 가장 큰 특징은 오픈소스라는 점이다. 누구나 모델을 자유롭게 사용할 수 있으며 상업용으로도 사용할 수 있다. 먼저 fine tuning의 가장 큰 목적은 자신만의 도메인을 답하게 하기 위함이 크다. 물론 RAG를 통해서도 가능 하겠지만, 정확한 답변을 요구하는 RAG와 다르게 fine tuning을 통해서는 답변을 원하는 형태로 바꾼다는 표현이 더 정확할꺼 같다. ex : 다음 문장을 사투리로 바꿔줘 물론 둘다 하는 방법도 있지만, 보통 RAG / fine tuning 하나만을 추천한다. (둘다 사용해도 드라마틱하게 성능이 향상되진 않는다고 한다.) 파인튜닝은 다음의 단계를 고려해야 합니다. 1. Fine-tuning 선택 초기에는 어떤 부분을 개선하거나 변경할지 결정..