RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
제목 : RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
- 논문 정보
- 저자 : Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning
- 출판정보 : ICLR 2024
- 연구 목적
- 긴 문서에서 전체적인 맥락을 이해하고 다양한 수준의 추상화를 통해 효과적인 검색이 가능한 새로운 검색 증강 언어 모델 방법론 제안
- 방법론
- 텍스트를 청크로 나누고 bottom-up 방식으로 클러스터링하여 계층적 트리 구조 구축
- 각 계층에서 요약문을 생성하고 다양한 추상화 수준의 정보를 통합하여 검색
- 주요결과
- QuALITY 데이터셋에서 GPT-4와 결합하여 82.6%의 정확도 달성 (이전 SOTA 62.3% 대비 큰 향상)
- QASPER 데이터셋에서 55.7% F1 스코어로 새로운 SOTA 달성
- NarrativeQA 데이터셋에서 METEOR 메트릭에서 새로운 SOTA 달성
- 기존 검색 방법 대비 더 포괄적이고 관련성 높은 정보 검색 가능
- 의의 및 시사점
- 긴 문서의 계층적 구조를 효과적으로 활용하여 다양한 수준의 맥락 정보를 통합
- 기존 검색 증강 언어 모델의 한계인 짧은 문맥 청크 검색 문제를 해결
- 한계점
- 요약 과정에서 약 4%의 환각(hallucination) 발생
- 계산 비용이 문서 길이에 따라 선형적으로 증가
- 평가 및 결론
- RAPTOR는 다양한 QA 태스크에서 SOTA를 달성하며 긴 문서에 대한 효과적인 검색 및 이해 능력 입증
- 계층적 구조와 요약을 통한 접근이 검색 증강 언어 모델의 성능을 크게 향상시킬 수 있음을 보여줌
- Keywords
- retrieval-augmented language models, tree-based retrieval, document understanding