dl 3

[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

1. Introduction모델의 규모를 단순히 키우는 것만으로는 산술적 추론(arithmetic reasoning), 상식적 추론(commonsense reasoning), 기호적 추론(symbolic reasoning)과 같은 복잡한 논리적 문제를 해결하는 데 충분하지 않음대형 언어 모델의 추론 능력을 활성화할 수 있는 간단한 방법을 탐구. 이 방법은 두 가지 핵심 아이디어에서 출발산술적 추론 기술은 최종 정답을 도출하는 과정에서 자연어 기반의 논리적 사고 과정(natural language rationales)을 생성하는 방식에서 이점을 얻을 수 있음cf) 이전 연구에서는 모델이 자연어 기반의 중간 단계를 생성하도록 학습하는 방식을 제안한 바 있음. 예를 들어, 처음부터 모델을 학습하는 방법(Lin..

learning/MLDL 2025.03.16

[강의] CS25 Transformers United V4 8강: Behind the Scenes of LLM Pre-training-StarCoder Use Case(Loubna Ben Allal)

강연 소개강연자 Loubna Ben Allal: ML Engineer in Hugging FaceStarcoder modelWhat does it take to train a good LLM?Intro수년 전에는 오픈소스 모델이 gpt와 같은 폐쇄형 모델을 따라잡는데 시간이 많이 걸릴 것이라고 예측↔ much smaller ex) Llama - 모델 가중치가 개방적이고, 모델을 양자화할 수 있고, 소비자용 데스크톱에서도 실행할 수 있기 때문에 use case build 하는게 가능해짐open llm company가 많아짐gemma, mistral, …open vs closed model의 성능 격차가 줄어들고 있음Limitations: missing details about data and model t..

learning/Lectures 2025.02.18

[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(Attention)

초록도입: 신경망 기반 기계 번역(neural machine translation, NMT)의 새로운 접근법 제안기존 연구: 기존의 통계적 번역 모델(statistical machine translation, SMT)과 달리, 단일 신경망이 번역 성능을 극대화방법: 고정된 길이의 벡터로 문장을 표현하는 기존 인코더-디코더 모델의 한계를 극복하고, 소프트 얼라인먼트(soft alignment) 방식을 도입하여 번역 성능을 개선결과: 긴 문장에서도 우수한 성능을 보이며, 영어-프랑스어 번역에서 기존 시스템(최첨단 구문 기반 시스템)과 유사하거나 더 나은 결과를 얻음1. 서론신경망 기반 기계 번역(NMT): 전체 문장을 입력받아 출력 문장을 생성하는 단일 모델↔ 통계적 번역 시스템(SMT): 작은 하위 요소로..

learning/MLDL 2024.11.20