learning/MLDL 6

[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

1. Introduction모델의 규모를 단순히 키우는 것만으로는 산술적 추론(arithmetic reasoning), 상식적 추론(commonsense reasoning), 기호적 추론(symbolic reasoning)과 같은 복잡한 논리적 문제를 해결하는 데 충분하지 않음대형 언어 모델의 추론 능력을 활성화할 수 있는 간단한 방법을 탐구. 이 방법은 두 가지 핵심 아이디어에서 출발산술적 추론 기술은 최종 정답을 도출하는 과정에서 자연어 기반의 논리적 사고 과정(natural language rationales)을 생성하는 방식에서 이점을 얻을 수 있음cf) 이전 연구에서는 모델이 자연어 기반의 중간 단계를 생성하도록 학습하는 방식을 제안한 바 있음. 예를 들어, 처음부터 모델을 학습하는 방법(Lin..

learning/MLDL 2025.03.16

[논문 리뷰] Attention Is All You Need(Transformer) (2017)

논문 출처: https://arxiv.org/abs/1706.037620. Abstract오늘날 대부분의 시퀀스 변환 모델(sequence transduction models)은 인코더와 디코더를 포함하는 복잡한 RNN 또는 CNN 기법에 기반함본 논문은 attention 메커니즘에만 기반한 새로운 간단한 네트워크 아키텍쳐, Transformer를 제시함2가지 기계 번역 업무 실험 결과, 이 모델은 (1) 품질이 우수하고 (2) 병렬화 가능하여 훈련에 적은 시간 소요WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 달성 (over 2 BLEU)WMT 2014 영어-프랑스어 번역 과제에서 8개의 GPU에서 3.5일간 훈련한 후 SOTA 달성(기존에 비해 모델 훈련 비용 절감)Transformer..

learning/MLDL 2025.02.16

[논문 리뷰] Language Models are Unsupervised Multitask Learners (GPT-2) (2019)

논문 정보논문 제목: 언어 모델은 비지도 멀티태스크 학습자이다 (Language Models are Unsupervised Multitask Learners)논문 저자: Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever (OpenAI)논문 출처: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf초록자연어 처리 작업(질문 응답, 기계 번역, 독해, 요약 등)은 주로 작업별(task-specific) 데이터셋을 기반으로 지도 학습(supervised learning)을 통해 수행그러나 ..

learning/MLDL 2025.01.30

[논문 리뷰] Improving Language Understandingby Generative Pre-Training (GPT-1) (2018)

논문논문 제목: Improving Language Understandingby Generative Pre-Training (GPT-1)논문 저자: Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever(OpenAI)논문 출처: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfAbstract자연어 이해에서 발생하는 다양한 과제들-텍스트 함의(textual entailment), 질문 응답(question answering), 의미 유사성 평가(semantic similarity assessment), 문서 분류(document cla..

learning/MLDL 2025.01.30

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding저자: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Google AI Language)최초 게재일: 2018. 10. 11링크: https://arxiv.org/abs/1810.04805 파란색 글씨는 보충적인 설명을 위해 논문 외 자료에서 조사한 내용입니다. 초록 (Abstract)BERT(Bidirectional Encoder Representations from Transformers): 자연어 처리에서 양방향 사전 학습을 활용하는 새로운 언어 표현 모델로, 비지도 학습으로 사전 ..

learning/MLDL 2024.12.09

[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(Attention)

초록도입: 신경망 기반 기계 번역(neural machine translation, NMT)의 새로운 접근법 제안기존 연구: 기존의 통계적 번역 모델(statistical machine translation, SMT)과 달리, 단일 신경망이 번역 성능을 극대화방법: 고정된 길이의 벡터로 문장을 표현하는 기존 인코더-디코더 모델의 한계를 극복하고, 소프트 얼라인먼트(soft alignment) 방식을 도입하여 번역 성능을 개선결과: 긴 문장에서도 우수한 성능을 보이며, 영어-프랑스어 번역에서 기존 시스템(최첨단 구문 기반 시스템)과 유사하거나 더 나은 결과를 얻음1. 서론신경망 기반 기계 번역(NMT): 전체 문장을 입력받아 출력 문장을 생성하는 단일 모델↔ 통계적 번역 시스템(SMT): 작은 하위 요소로..

learning/MLDL 2024.11.20