Contextual document embeddings
제목 : Contextual document embeddings
- 논문 정보
- 저자 : Jonh X. Morris & Alexander M. Rush
- 출판정보 : on arxiv / 18 Oct 2024
- 연구 목적
- 문서 임베딩 모델의 성능을 향상시키기 위해 문맥을 고려한 훈련 방법과 아키텍처를 제안
- 방법론
- Adaversarial contrastive learning을 통해 batch 내 문서들을 문맥화하는 훈련 방법을 개발
- 문서 임베딩 시 neighboring document info를 명시적으로 인코딩하는 새로운 아키텍처를 설계
- 주요결과
- 제안된 방법들은 기존 biencoder 모델보다 여러 설정에서 더 나은 성능을 보임(특히 도메인이 다른 상황에서 성능 향상이 두드러짐)
- MTEB 벤치마크에서 250M 이하 파라미터를 가진 모델들 중 최고 성능을 달성
- 하드 네거티브 마이닝, 스코어 증류 등의 기법 없이도 최고 성능을 달성
- 의의 및 시사점
- 이 연구는 문서 임베딩에 문맥 정보를 통합하는 새로운 접근 방식을 제시
- 도메인 적응 문제를 해결하는 데 도움이 되며, 검색 시스템의 일반화 능력을 향상 가능성 시사
- 제안된 방법은 다양한 contrastive learning dataset과 biencoder 모델에 적용 가능
- 한계점
- 제안된 아키텍처의 계산 복잡도가 증가할 수 있음
- 실시간 검색 시 추가적인 최적화가 필요
- 평가 및 결론
- 문맥화된 훈련과 아키텍처를 통해 기존 모델의 한계를 극복하고 성능을 향상
- Keywords
- document embedding, contextual embedding, adversarial contrastive learning