본문 바로가기

ML/데이터 분석

MMR 논문 : The Use of MMR Diversity-Based Reranking for Reordering Documents and Producing Summaries

두페이지 짜리 매우 짧은 논문입니다...

논문 링크

 

 

Abstract

MMR(Maximal Marginal Relevance, 최대 한계 관련성) 기준은 검색된 문서를 재순위화(re-ranking)하거나 텍스트 요약을 위해 적절한 구절을 선택할 때, 쿼리와의 관련성을 유지하면서 동시에 중복성(redundancy)을 줄이는 것을 목표로 한다. 

 

 

1. Introduction

기존의 정보 검색(IR) 시스템은 사용자 쿼리와의 관련성(relevance)을 최대화를 기반으로 문서를 순위화 한다. 

잠재적으로 관련 있는 문서가 방대하게 많고, 서로 내용이 매우 중복되거나 (극단적인 경우) 부분적 혹은 전체적으로 복제된 정보를 포함하고 있는 경우에는, 문서 랭킹을 위해 순수 관련성 이상의 수단을 사용해야 한다. 

 

새로운 문서 랭킹 방법은 순위 목록에 있는 각 문서를 '쿼리 관련성(query relevance)'과 '정보의 참신성(novelty of information)'을 결합한 기준에 따라 선택하는 것이다.  참신성이란 고려 중인 문서와 이미 순위 목록에 선택된 이전 문서들 간의 비유사성(dissimilarity) 정도를 측정하는 것이다. 

 

어떤 사용자들은 좁은 주제를 깊이 파고드는 것(drill down)을 선호할 수 있고, 다른 사용자들은 쿼리와 관련하여 파노라마처럼 넓은 범위의 샘플링을 선호할 수도 있다. 가장 좋은 것은 사용자가 조절할 수 있는(user-tunable) 방법을 제공하는것이다. 다음에서 논의할 MMR(Maximal Marginal Relevance)이 바로 정확히 그러한 기능을 제공한다. 

 

 

 

2. Maximal Margianl Relevance (최대 한계 관련성)

대부분의 현대적인 정보 검색(IR) 엔진은 사용자 쿼리에 대한 관련성이 높은 순서(내림차순)로 정렬된 검색 문서 목록을 생성한다. 이와 대조적으로, '관련성 있는 참신성(relevant novelty)'이 잠재적으로 더 우수한 기준이 될 수 있음을 제시한다.

 

 

관련성 있는 참신성을 측정하기 위한 첫 번째 근사법은 관련성과 참신성을 독립적으로 측정한 뒤, 이를 선형 결합(linear combination)하여 지표로 제공하는 것이다. 우리는 이 선형 결합을 '한계 관련성(marginal relevance)'이라고 정의한다.. 즉, 어떤 문서가 쿼리와 관련이 있으면서 동시에 이전에 선택된 문서들과의 유사성이 최소일 때, 그 문서는 높은 한계 관련성을 갖는다.

 

우리는 검색 및 요약 과정에서 이 한계 관련성을 최대화 방법을 '최대 한계 관련성(Maximal Marginal Relevance, MMR)'이라고 명명한다

 

MMR 공식

 

각 변수의 정의는 다음과 같습니다:

  • : 문서 집합 (또는 문서 스트림) [참고로 위의 공식엔 없다 / D의 집합체로 보면 된다.]
  • : 쿼리 또는 사용자 프로필
  • : IR 시스템에 의해 로부터 검색된, 관련성 임계값 이상의 순위가 매겨진 문서 목록
  • : 중에서 이미 선택된 문서들의 부분집합
  • : 차집합, 즉 에 있지만 아직 선택되지 않은 문서들의 집합
  • : 문서(구절)와 쿼리 간의 문서 검색 및 관련성 순위 매기기에 사용되는 유사도 지표
  • : 문서 간의 유사도 지표로, 과 같을 수도 있고 다를 수도 있다.

위 정의에 따르면, MMR은 파라미터 일 때 표준적인 관련성 순위 목록을 점진적으로 계산하고, 일 때는 내의 문서들 사이에서 최대 다양성 순위(maximal diversity ranking)를 계산한다. 가 0과 1 사이의 중간값일 때는 두 기준(관련성과 다양성)의 선형 결합이 최적화된다.

 

쿼리 주변의 정보 공간을 샘플링(sample)하고자 하는 사용자는 작은 값으로 설정해야 하며, 잠재적으로 내용이 겹치거나 정보를 보강하는 여러 관련 문서들에 집중(focus)하고자 하는 사용자는 1에 가까운 값으로 설정해야 한다

 

 

 

(아직 선택 안된 문서 집합)[(문서와 쿼리 간의 유사도) - (1-λ) * (문서간의 유사도)]
λ - 1에 가까우면 관련성이 높아지고 
λ- 0에 가까우면 한계 관련성에 접근한다. 

 

 

 

 

3.  Document Reordering (문서 재정렬)

우리는 다양한 학과의 학부생 5명을 대상으로 예비 실험(pilot experiment)을 진행했다. 이 연구의 목적은 사용자들이 표준 랭킹 방식(standard ranking method)과 MMR 방식의 차이를 구별할 수 있는지 확인하는 것이었다

 

참가자들은 문서들로부터 정보를 찾도록 요청받았으며, 문서가 어떤 순서로 제시되는지에 대해서는 구체적인 설명을 듣지 못했고 단지 'R 방식' 또는 'S 방식'이 사용되었다는 점만 전달받았다. (A/B 테스트)

 

실험 결과, 80%의 참가자가  자신들의 견해로 볼 때 가장 폭넓고 흥미로운 주제들을 제공해 주는 MMR 방식을 선택했다.

 

사용자들은 상황에 따라 선호하는 방식이 달랐다. 정보 공간을 탐색(navigation)하거나 관련성 있는 후보 문서를 더 빠르게 찾을 때MMR을 선호하는 반면, 특정 범위 내에서 연관된 문서들을 자세히 살펴볼 때는 '순수 관련성 랭킹(pure-relevance ranking)'을 선호했다.

 

 

 

4. summarization

관련성(relevance)뿐만 아니라 중복 방지(anti-redundancy)를 고려해야 한다. 요약은 중복을 피해야 하는데, 중복은 요약의 목적 자체를 무색하게 만들기 때문이다. 단일 문서 요약을 넘어 문서 클러스터 요약(document cluster summarization), 즉 서로 다르지만 내용이 겹칠 수 있는 문서들로부터 구절을 모아야 하는 경우로 나아가면, 중복을 줄이는 것은 훨씬 더 중요한 문제가 된다.

 

단일 문서 요약에서 다양성 이득(diversity gain)을 얻을 때 관련성 손실이 얼마나 되는지 평가하기 위해 결과적으로 , , 점수 간에는 통계적으로 유의미한 차이가 없었다. 이는 요약이 놓친 관련 정보를 혹은 으로 재정렬할 때 찾아내는 경우가 있기 때문으로 설명된다.

 

요약을 위한 MMR 구절 선택 방식은 긴 문서(초록, 서론, 결론, 결과 등 섹션 전반에 걸쳐 내재적인 구절 중복이 많은 문서)에서 더 잘 작동한다. MMR은 또한 같은 주제에 대한 다중 문서(multiple documents)에서 구절을 추출할 때 매우 유용하다. 다중 문서 요약에 대한 결과에 따르면, 쿼리에 대해 반환된 뉴스 기사 컬렉션의 상위 10개 구절에는 상당한 내용 반복이 존재하며, 문장들이 중복되거나 거의 복제된 경우가 많다. MMR은 이러한 중복을 줄이거나 제거가 가능하다. 

'ML > 데이터 분석' 카테고리의 다른 글

ALS 논문 : MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS  (0) 2026.01.21
[airflow] certified  (0) 2025.10.29
[airflow] Branching  (0) 2025.10.27
CoxPHFitter  (2) 2025.07.23
2. 3점 슛이 코트를 지배하는가?  (1) 2025.07.05