PR0005) The Geometry of Concepts. Sparse Autoencoder Feature Structure

제목 : The Geometry of Concepts: Sparse Autoencoder Feature Structure

논문 정보
- 저자 : Yuxiao Li, Eric J. Michaud, David D. Baek, Joshua Engels, Xiaoqing Sun, Max Tegmark
- 출판정보 : ICLR 2024
연구 목적
- Sparse auto-encoder가 발견한 대규모 언어 모델의 개념 공간(concept universe)의 구조를 세 가지 스케일(atom, brain, galaxy)에서 분석
방법론
- SAE feature들의 기하학적 구조 분석
- 공동 출현(co-occurrence) 기반 feature 클러스터링
- PCA와 eigenvalue 분석을 통한 대규모 구조 연구
주요결과
- atomic : man : woman :: king : queen과 같은 결정체(crystal) 구조 발견
- brain : 수학/코드 관련 feature들이 functional lobe를 형성
- galaxy : feature point cloud가 power law에 따라 감소하는 eigenvalue 구조를 보임
- 중간 layer에서 가장 가파른 power law slope와 낮은 clustering entropy를 보임
의의 및 시사점
- 대규모 언어 모델 내부의 개념 표현 방식에 대한 새로운 통찰을 제공하며, 특히 feature들이 단순한 무작위 분포가 아닌 체계적인 구조를 가짐을 보임
한계점
- SAE feature 구조의 원인에 대한 이론적 설명 부족
- 다른 언어 모델들에 대한 일반화 가능성 검증 필요
평가 및 결론
- 언어 모델의 내부 표현에 대한 중요한 실증적 발견을 제시하며, 향후 언어 모델의 작동 원리를 이해하는데 기여할 것으로 기대됨
Keywords
- sparse autoencoder, feature geometry