GPT 3

[논문 리뷰] Language Models are Unsupervised Multitask Learners (GPT-2) (2019)

논문 정보논문 제목: 언어 모델은 비지도 멀티태스크 학습자이다 (Language Models are Unsupervised Multitask Learners)논문 저자: Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever (OpenAI)논문 출처: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf초록자연어 처리 작업(질문 응답, 기계 번역, 독해, 요약 등)은 주로 작업별(task-specific) 데이터셋을 기반으로 지도 학습(supervised learning)을 통해 수행그러나 ..

learning/MLDL 2025.01.30

[논문 리뷰] Improving Language Understandingby Generative Pre-Training (GPT-1) (2018)

논문논문 제목: Improving Language Understandingby Generative Pre-Training (GPT-1)논문 저자: Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever(OpenAI)논문 출처: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfAbstract자연어 이해에서 발생하는 다양한 과제들-텍스트 함의(textual entailment), 질문 응답(question answering), 의미 유사성 평가(semantic similarity assessment), 문서 분류(document cla..

learning/MLDL 2025.01.30

[강의] CS25 Transformers United V4 2강: Jason Wei & Hyung Won Chung of OpenAI

강의 출처: https://web.stanford.edu/class/cs25/Intuitions on Language Models (Jason)Q. Why do LMs work so well?→ manually inspect dataex) 폐암의 종류를 분류하는(classify) 프로젝트를 했었음but 이 일을 하려면 medical degree 필요하다고 함논문 많이 읽고, 병리학적 case 많이 접함How LM are trainednext word prediction task: 앞에 나오는 단어가 있고, 그 다음에 나올 단어를 예측함각 단어에 대한 확률 도출LM은 모든 단어에 확률 부여손실(loss): 실제 다음 단어와 예측 단어 간 차이→ 첫번째 직관*: next-word prediction = ma..

learning/Lectures 2025.01.20