허밍 lab

  • 홈
  • 태그
  • 방명록

Moe 1

[강의] CS25 Transformers United V4 4강: Demystifying Mixtral of Experts(Albert Jiang)

강의 출처: https://youtu.be/RcJ1YXHLv5o?feature=sharedMoE 개념(from GPT)주요 특징전문가 모델들MoE는 여러 하위 모델(전문가)로 구성됩니다. 각 모델은 특정한 문제나 데이터 패턴에 전문화되어 있습니다.예를 들어, 하나의 전문가 모델은 언어 데이터를 잘 처리하고, 다른 모델은 이미지 데이터를 더 잘 처리할 수 있습니다.게이팅 네트워크(Gating Network)MoE의 핵심은 게이팅 메커니즘입니다. 게이팅 네트워크는 입력 데이터를 분석하여 어떤 전문가 모델이 해당 입력을 가장 잘 처리할 수 있는지 판단합니다.게이팅 네트워크는 "어떤 전문가가 활성화되어야 하는지"를 결정하는 역할을 합니다.효율성MoE는 모든 전문가를 동시에 사용하는 대신, 특정 입력에 맞는 소수..

learning/Lectures 2025.01.22
이전
1
다음
더보기
프로필사진

허밍 lab

  • 분류 전체보기 (15)
    • thinking (0)
    • learning (15)
      • MLDL (6)
      • HCIAI (3)
      • Lectures (6)
      • Textbooks (0)
    • living (0)

Tag

Prompt Engineering, llm, GPT, mldl, 논문리뷰, CHI, open ai, Stanford, ML, Zero shot, Ai, 인공지능, vlm, Transformer, dl, affective computing, HCI, conversational AI, NLP, cs25,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/02   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바