Transformer 7

[논문 리뷰] Attention Is All You Need(Transformer) (2017)

논문 출처: https://arxiv.org/abs/1706.037620. Abstract오늘날 대부분의 시퀀스 변환 모델(sequence transduction models)은 인코더와 디코더를 포함하는 복잡한 RNN 또는 CNN 기법에 기반함본 논문은 attention 메커니즘에만 기반한 새로운 간단한 네트워크 아키텍쳐, Transformer를 제시함2가지 기계 번역 업무 실험 결과, 이 모델은 (1) 품질이 우수하고 (2) 병렬화 가능하여 훈련에 적은 시간 소요WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 달성 (over 2 BLEU)WMT 2014 영어-프랑스어 번역 과제에서 8개의 GPU에서 3.5일간 훈련한 후 SOTA 달성(기존에 비해 모델 훈련 비용 절감)Transformer..

learning/MLDL 2025.02.16

[강의] CS25 Transformers United V4 6강: From Large Language Models to Large Multimodal Models(Ming Ding, Zhipu AI)

강의 출처:https://www.youtube.com/watch?v=cYfKQ6YG9Qo&t=797s강의 소개 지난 5년간 대규모 언어 모델(LLMs)의 발전으로, 시각적 정보를 포함한 다른 감각적 모달리티를 LLM과 통합하려는 시도가 활발히 진행되고 있다. 이번 강연은 LLM의 기본 개념을 시작으로, 지난 1년간 학계에서의 멀티모달 모델과 구조적 업데이트 시도, CogVLM(17B 파라미터의 강력한 오픈소스 멀티모달 모델)과 CogAgent(GUI 및 OCR 작업용으로 설계된 모델)를 소개한다. 마지막으로 멀티모달 모델의 응용과 학계에서의 가능성 있는 연구 방향을 논의한다.Why are we here?: LLM introduction and historyBERT momentbetter self-sup..

learning/Lectures 2025.01.23

[강의] CS25 Transformers United V4 4강: Demystifying Mixtral of Experts(Albert Jiang)

강의 출처: https://youtu.be/RcJ1YXHLv5o?feature=sharedMoE 개념(from GPT)주요 특징전문가 모델들MoE는 여러 하위 모델(전문가)로 구성됩니다. 각 모델은 특정한 문제나 데이터 패턴에 전문화되어 있습니다.예를 들어, 하나의 전문가 모델은 언어 데이터를 잘 처리하고, 다른 모델은 이미지 데이터를 더 잘 처리할 수 있습니다.게이팅 네트워크(Gating Network)MoE의 핵심은 게이팅 메커니즘입니다. 게이팅 네트워크는 입력 데이터를 분석하여 어떤 전문가 모델이 해당 입력을 가장 잘 처리할 수 있는지 판단합니다.게이팅 네트워크는 "어떤 전문가가 활성화되어야 하는지"를 결정하는 역할을 합니다.효율성MoE는 모든 전문가를 동시에 사용하는 대신, 특정 입력에 맞는 소수..

learning/Lectures 2025.01.22

[강의] CS25 Transformers United V4 3강: Aligning Open Language Models(Nathan Lambert)

강의 출처: https://web.stanford.edu/class/cs25/ CS25: Tranformers United!Disussing the latest breakthroughs with Transformers in diverse domainsweb.stanford.edu Aligning Open Language ModelsA heavily abbreviated history of language models (LMs)cf) stochastic parrots: 언어 모델이 단순히 데이터를 흉내 내는 역할만 한다는 비판적 시각https://dl.acm.org/doi/10.1145/3442188.3445922Can ChatGPT exist without RLHF?cf) RLHF(Reinforcemen..

learning/Lectures 2025.01.20

[강의] CS25 Transformers United V4 2강: Jason Wei & Hyung Won Chung of OpenAI

강의 출처: https://web.stanford.edu/class/cs25/Intuitions on Language Models (Jason)Q. Why do LMs work so well?→ manually inspect dataex) 폐암의 종류를 분류하는(classify) 프로젝트를 했었음but 이 일을 하려면 medical degree 필요하다고 함논문 많이 읽고, 병리학적 case 많이 접함How LM are trainednext word prediction task: 앞에 나오는 단어가 있고, 그 다음에 나올 단어를 예측함각 단어에 대한 확률 도출LM은 모든 단어에 확률 부여손실(loss): 실제 다음 단어와 예측 단어 간 차이→ 첫번째 직관*: next-word prediction = ma..

learning/Lectures 2025.01.20

[강의] CS25 Transformers United V4 1강: Overview of Transformers

출처강의 링크https://web.stanford.edu/class/cs25/ CS25: Tranformers United!Disussing the latest breakthroughs with Transformers in diverse domainsweb.stanford.edu 강의 영상https://www.youtube.com/watch?v=fKMB5UlVY1E&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=26&t=1491s&ab_channel=StanfordOnline Transformers and LLMs: An IntorudctionNLP Throughout the YearsLinguistic Foundcations각각의 단어를 숫자 벡터로 표현Word2Ve..

learning/Lectures 2025.01.17

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding저자: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Google AI Language)최초 게재일: 2018. 10. 11링크: https://arxiv.org/abs/1810.04805 파란색 글씨는 보충적인 설명을 위해 논문 외 자료에서 조사한 내용입니다. 초록 (Abstract)BERT(Bidirectional Encoder Representations from Transformers): 자연어 처리에서 양방향 사전 학습을 활용하는 새로운 언어 표현 모델로, 비지도 학습으로 사전 ..

learning/MLDL 2024.12.09