MoE란?
MoE란 Mixture of Experts의 약자로, Expert라고 이름 붙인 FFN(feed-forward network) 여러 개를 사용하는 방법이다. 각 Expert는 특정 데이터나 패턴을 담당한다. 학습/서빙 비용은 유지하면서 모델 사이즈를 키울 수 있는 효율적인 방법으로, GPT-4 학습에 사용되었다고 알려져 있다.
MoE 기법에는 아래와 같은 개념이 사용된다.

(이미지 출처: https://developer.nvidia.com/ko-kr/blog/applying-mixture-of-experts-in-llm-architectures/)

(이미지 출처: https://arxiv.org/abs/2101.03961)

(이미지 출처: https://developer.nvidia.com/ko-kr/blog/applying-mixture-of-experts-in-llm-architectures/)
Vision 분야에서 MoE를 적용한 사례
MoE-LLaVA, DeepSeek-VL2 같은 대규모 시각 언어 모델(LVLM, Large Vision-Language Model)에서 MoE 기법으로 계산 효율성을 높이고 정확도를 향상시켰다.
두 방법 모두 이미지 입력은 임베딩 혹은 토큰화하여 텍스트 입력과 함께 넣어주고, 그 뒤 MoE 적용 방식은 LLM과 거의 같다.
이미지 입력에만 적용한 사례가 있나 찾아봤는데, V-MoE (https://arxiv.org/abs/2106.05974) 정도인 것 같다.
V-MoE는 https://moon-walker.medium.com/리뷰-이젠-vision에도-moe를-사용하자-google-brain의-scaling-vision-with-sparse-mixture-of-experts-8e58df7b2c07