Stanford 2

[강의] CS25 Transformers United V4 6강: From Large Language Models to Large Multimodal Models(Ming Ding, Zhipu AI)

강의 출처:https://www.youtube.com/watch?v=cYfKQ6YG9Qo&t=797s강의 소개 지난 5년간 대규모 언어 모델(LLMs)의 발전으로, 시각적 정보를 포함한 다른 감각적 모달리티를 LLM과 통합하려는 시도가 활발히 진행되고 있다. 이번 강연은 LLM의 기본 개념을 시작으로, 지난 1년간 학계에서의 멀티모달 모델과 구조적 업데이트 시도, CogVLM(17B 파라미터의 강력한 오픈소스 멀티모달 모델)과 CogAgent(GUI 및 OCR 작업용으로 설계된 모델)를 소개한다. 마지막으로 멀티모달 모델의 응용과 학계에서의 가능성 있는 연구 방향을 논의한다.Why are we here?: LLM introduction and historyBERT momentbetter self-sup..

learning/Lectures 2025.01.23

[강의] CS25 Transformers United V4 4강: Demystifying Mixtral of Experts(Albert Jiang)

강의 출처: https://youtu.be/RcJ1YXHLv5o?feature=sharedMoE 개념(from GPT)주요 특징전문가 모델들MoE는 여러 하위 모델(전문가)로 구성됩니다. 각 모델은 특정한 문제나 데이터 패턴에 전문화되어 있습니다.예를 들어, 하나의 전문가 모델은 언어 데이터를 잘 처리하고, 다른 모델은 이미지 데이터를 더 잘 처리할 수 있습니다.게이팅 네트워크(Gating Network)MoE의 핵심은 게이팅 메커니즘입니다. 게이팅 네트워크는 입력 데이터를 분석하여 어떤 전문가 모델이 해당 입력을 가장 잘 처리할 수 있는지 판단합니다.게이팅 네트워크는 "어떤 전문가가 활성화되어야 하는지"를 결정하는 역할을 합니다.효율성MoE는 모든 전문가를 동시에 사용하는 대신, 특정 입력에 맞는 소수..

learning/Lectures 2025.01.22