cs25 4

[강의] CS25 Transformers United V4 6강: From Large Language Models to Large Multimodal Models(Ming Ding, Zhipu AI)

강의 출처:https://www.youtube.com/watch?v=cYfKQ6YG9Qo&t=797s강의 소개 지난 5년간 대규모 언어 모델(LLMs)의 발전으로, 시각적 정보를 포함한 다른 감각적 모달리티를 LLM과 통합하려는 시도가 활발히 진행되고 있다. 이번 강연은 LLM의 기본 개념을 시작으로, 지난 1년간 학계에서의 멀티모달 모델과 구조적 업데이트 시도, CogVLM(17B 파라미터의 강력한 오픈소스 멀티모달 모델)과 CogAgent(GUI 및 OCR 작업용으로 설계된 모델)를 소개한다. 마지막으로 멀티모달 모델의 응용과 학계에서의 가능성 있는 연구 방향을 논의한다.Why are we here?: LLM introduction and historyBERT momentbetter self-sup..

learning/Lectures 2025.01.23

[강의] CS25 Transformers United V4 4강: Demystifying Mixtral of Experts(Albert Jiang)

강의 출처: https://youtu.be/RcJ1YXHLv5o?feature=sharedMoE 개념(from GPT)주요 특징전문가 모델들MoE는 여러 하위 모델(전문가)로 구성됩니다. 각 모델은 특정한 문제나 데이터 패턴에 전문화되어 있습니다.예를 들어, 하나의 전문가 모델은 언어 데이터를 잘 처리하고, 다른 모델은 이미지 데이터를 더 잘 처리할 수 있습니다.게이팅 네트워크(Gating Network)MoE의 핵심은 게이팅 메커니즘입니다. 게이팅 네트워크는 입력 데이터를 분석하여 어떤 전문가 모델이 해당 입력을 가장 잘 처리할 수 있는지 판단합니다.게이팅 네트워크는 "어떤 전문가가 활성화되어야 하는지"를 결정하는 역할을 합니다.효율성MoE는 모든 전문가를 동시에 사용하는 대신, 특정 입력에 맞는 소수..

learning/Lectures 2025.01.22

[강의] CS25 Transformers United V4 3강: Aligning Open Language Models(Nathan Lambert)

강의 출처: https://web.stanford.edu/class/cs25/ CS25: Tranformers United!Disussing the latest breakthroughs with Transformers in diverse domainsweb.stanford.edu Aligning Open Language ModelsA heavily abbreviated history of language models (LMs)cf) stochastic parrots: 언어 모델이 단순히 데이터를 흉내 내는 역할만 한다는 비판적 시각https://dl.acm.org/doi/10.1145/3442188.3445922Can ChatGPT exist without RLHF?cf) RLHF(Reinforcemen..

learning/Lectures 2025.01.20

[강의] CS25 Transformers United V4 2강: Jason Wei & Hyung Won Chung of OpenAI

강의 출처: https://web.stanford.edu/class/cs25/Intuitions on Language Models (Jason)Q. Why do LMs work so well?→ manually inspect dataex) 폐암의 종류를 분류하는(classify) 프로젝트를 했었음but 이 일을 하려면 medical degree 필요하다고 함논문 많이 읽고, 병리학적 case 많이 접함How LM are trainednext word prediction task: 앞에 나오는 단어가 있고, 그 다음에 나올 단어를 예측함각 단어에 대한 확률 도출LM은 모든 단어에 확률 부여손실(loss): 실제 다음 단어와 예측 단어 간 차이→ 첫번째 직관*: next-word prediction = ma..

learning/Lectures 2025.01.20