PR0005) The Geometry of Concepts. Sparse Autoencoder Feature Structure

 

The Geometry of Concepts: Sparse Autoencoder Feature Structure

제목 : The Geometry of Concepts: Sparse Autoencoder Feature Structure

  • 논문 정보
    • 저자 : Yuxiao Li, Eric J. Michaud, David D. Baek, Joshua Engels, Xiaoqing Sun, Max Tegmark
    • 출판정보 : ICLR 2024
  • 연구 목적
    • Sparse auto-encoder가 발견한 대규모 언어 모델의 개념 공간(concept universe)의 구조를 세 가지 스케일(atom, brain, galaxy)에서 분석
  • 방법론
    • SAE feature들의 기하학적 구조 분석
    • 공동 출현(co-occurrence) 기반 feature 클러스터링
    • PCA와 eigenvalue 분석을 통한 대규모 구조 연구
  • 주요결과
    • atomic : man : woman :: king : queen과 같은 결정체(crystal) 구조 발견
    • brain : 수학/코드 관련 feature들이 functional lobe를 형성
    • galaxy : feature point cloud가 power law에 따라 감소하는 eigenvalue 구조를 보임
    • 중간 layer에서 가장 가파른 power law slope와 낮은 clustering entropy를 보임
  • 의의 및 시사점
    • 대규모 언어 모델 내부의 개념 표현 방식에 대한 새로운 통찰을 제공하며, 특히 feature들이 단순한 무작위 분포가 아닌 체계적인 구조를 가짐을 보임
  • 한계점
    • SAE feature 구조의 원인에 대한 이론적 설명 부족
    • 다른 언어 모델들에 대한 일반화 가능성 검증 필요
  • 평가 및 결론
    • 언어 모델의 내부 표현에 대한 중요한 실증적 발견을 제시하며, 향후 언어 모델의 작동 원리를 이해하는데 기여할 것으로 기대됨
  • Keywords
    • sparse autoencoder, feature geometry