PR0004) RAPTOR. Recursive Abstractive Processing for Tree-Organized Retrieval

 

RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

제목 : RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

  • 논문 정보
    • 저자 : Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning
    • 출판정보 : ICLR 2024
  • 연구 목적
    • 긴 문서에서 전체적인 맥락을 이해하고 다양한 수준의 추상화를 통해 효과적인 검색이 가능한 새로운 검색 증강 언어 모델 방법론 제안
  • 방법론
    • 텍스트를 청크로 나누고 bottom-up 방식으로 클러스터링하여 계층적 트리 구조 구축
    • 각 계층에서 요약문을 생성하고 다양한 추상화 수준의 정보를 통합하여 검색
  • 주요결과
    • figure_01
    • QuALITY 데이터셋에서 GPT-4와 결합하여 82.6%의 정확도 달성 (이전 SOTA 62.3% 대비 큰 향상)
    • QASPER 데이터셋에서 55.7% F1 스코어로 새로운 SOTA 달성
    • NarrativeQA 데이터셋에서 METEOR 메트릭에서 새로운 SOTA 달성
    • 기존 검색 방법 대비 더 포괄적이고 관련성 높은 정보 검색 가능
  • 의의 및 시사점
    • 긴 문서의 계층적 구조를 효과적으로 활용하여 다양한 수준의 맥락 정보를 통합
    • 기존 검색 증강 언어 모델의 한계인 짧은 문맥 청크 검색 문제를 해결
  • 한계점
    • 요약 과정에서 약 4%의 환각(hallucination) 발생
    • 계산 비용이 문서 길이에 따라 선형적으로 증가
  • 평가 및 결론
    • RAPTOR는 다양한 QA 태스크에서 SOTA를 달성하며 긴 문서에 대한 효과적인 검색 및 이해 능력 입증
    • 계층적 구조와 요약을 통한 접근이 검색 증강 언어 모델의 성능을 크게 향상시킬 수 있음을 보여줌
  • Keywords
    • retrieval-augmented language models, tree-based retrieval, document understanding