분류 전체보기 15

[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

1. Introduction모델의 규모를 단순히 키우는 것만으로는 산술적 추론(arithmetic reasoning), 상식적 추론(commonsense reasoning), 기호적 추론(symbolic reasoning)과 같은 복잡한 논리적 문제를 해결하는 데 충분하지 않음대형 언어 모델의 추론 능력을 활성화할 수 있는 간단한 방법을 탐구. 이 방법은 두 가지 핵심 아이디어에서 출발산술적 추론 기술은 최종 정답을 도출하는 과정에서 자연어 기반의 논리적 사고 과정(natural language rationales)을 생성하는 방식에서 이점을 얻을 수 있음cf) 이전 연구에서는 모델이 자연어 기반의 중간 단계를 생성하도록 학습하는 방식을 제안한 바 있음. 예를 들어, 처음부터 모델을 학습하는 방법(Lin..

learning/MLDL 2025.03.16

[논문 리뷰] (CHI '24) Simulating Emotions With an Integrated Computational Model of Appraisal and Reinforcement Learning

논문 출처: Jiayi Eurus Zhang, Bernhard Hilpert, Joost Broekens, and Jussi P. P. Jokinen. 2024. Simulating Emotions With an Integrated Computational Model of Appraisal and Reinforcement Learning. In Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (CHI '24). Association for Computing Machinery, New York, NY, USA, Article 703, 1–12. https://doi.org/10.1145/3613904.3641908Ab..

learning/HCIAI 2025.03.09

[강의] CS25 Transformers United V4 8강: Behind the Scenes of LLM Pre-training-StarCoder Use Case(Loubna Ben Allal)

강연 소개강연자 Loubna Ben Allal: ML Engineer in Hugging FaceStarcoder modelWhat does it take to train a good LLM?Intro수년 전에는 오픈소스 모델이 gpt와 같은 폐쇄형 모델을 따라잡는데 시간이 많이 걸릴 것이라고 예측↔ much smaller ex) Llama - 모델 가중치가 개방적이고, 모델을 양자화할 수 있고, 소비자용 데스크톱에서도 실행할 수 있기 때문에 use case build 하는게 가능해짐open llm company가 많아짐gemma, mistral, …open vs closed model의 성능 격차가 줄어들고 있음Limitations: missing details about data and model t..

learning/Lectures 2025.02.18

[논문 리뷰] Attention Is All You Need(Transformer) (2017)

논문 출처: https://arxiv.org/abs/1706.037620. Abstract오늘날 대부분의 시퀀스 변환 모델(sequence transduction models)은 인코더와 디코더를 포함하는 복잡한 RNN 또는 CNN 기법에 기반함본 논문은 attention 메커니즘에만 기반한 새로운 간단한 네트워크 아키텍쳐, Transformer를 제시함2가지 기계 번역 업무 실험 결과, 이 모델은 (1) 품질이 우수하고 (2) 병렬화 가능하여 훈련에 적은 시간 소요WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 달성 (over 2 BLEU)WMT 2014 영어-프랑스어 번역 과제에서 8개의 GPU에서 3.5일간 훈련한 후 SOTA 달성(기존에 비해 모델 훈련 비용 절감)Transformer..

learning/MLDL 2025.02.16

[논문 리뷰] Language Models are Unsupervised Multitask Learners (GPT-2) (2019)

논문 정보논문 제목: 언어 모델은 비지도 멀티태스크 학습자이다 (Language Models are Unsupervised Multitask Learners)논문 저자: Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever (OpenAI)논문 출처: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf초록자연어 처리 작업(질문 응답, 기계 번역, 독해, 요약 등)은 주로 작업별(task-specific) 데이터셋을 기반으로 지도 학습(supervised learning)을 통해 수행그러나 ..

learning/MLDL 2025.01.30

[논문 리뷰] Improving Language Understandingby Generative Pre-Training (GPT-1) (2018)

논문논문 제목: Improving Language Understandingby Generative Pre-Training (GPT-1)논문 저자: Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever(OpenAI)논문 출처: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfAbstract자연어 이해에서 발생하는 다양한 과제들-텍스트 함의(textual entailment), 질문 응답(question answering), 의미 유사성 평가(semantic similarity assessment), 문서 분류(document cla..

learning/MLDL 2025.01.30

[강의] CS25 Transformers United V4 6강: From Large Language Models to Large Multimodal Models(Ming Ding, Zhipu AI)

강의 출처:https://www.youtube.com/watch?v=cYfKQ6YG9Qo&t=797s강의 소개 지난 5년간 대규모 언어 모델(LLMs)의 발전으로, 시각적 정보를 포함한 다른 감각적 모달리티를 LLM과 통합하려는 시도가 활발히 진행되고 있다. 이번 강연은 LLM의 기본 개념을 시작으로, 지난 1년간 학계에서의 멀티모달 모델과 구조적 업데이트 시도, CogVLM(17B 파라미터의 강력한 오픈소스 멀티모달 모델)과 CogAgent(GUI 및 OCR 작업용으로 설계된 모델)를 소개한다. 마지막으로 멀티모달 모델의 응용과 학계에서의 가능성 있는 연구 방향을 논의한다.Why are we here?: LLM introduction and historyBERT momentbetter self-sup..

learning/Lectures 2025.01.23

[강의] CS25 Transformers United V4 4강: Demystifying Mixtral of Experts(Albert Jiang)

강의 출처: https://youtu.be/RcJ1YXHLv5o?feature=sharedMoE 개념(from GPT)주요 특징전문가 모델들MoE는 여러 하위 모델(전문가)로 구성됩니다. 각 모델은 특정한 문제나 데이터 패턴에 전문화되어 있습니다.예를 들어, 하나의 전문가 모델은 언어 데이터를 잘 처리하고, 다른 모델은 이미지 데이터를 더 잘 처리할 수 있습니다.게이팅 네트워크(Gating Network)MoE의 핵심은 게이팅 메커니즘입니다. 게이팅 네트워크는 입력 데이터를 분석하여 어떤 전문가 모델이 해당 입력을 가장 잘 처리할 수 있는지 판단합니다.게이팅 네트워크는 "어떤 전문가가 활성화되어야 하는지"를 결정하는 역할을 합니다.효율성MoE는 모든 전문가를 동시에 사용하는 대신, 특정 입력에 맞는 소수..

learning/Lectures 2025.01.22

[논문 리뷰] (CHI '24) The Illusion of Empathy? Notes on Displays of Emotion in Human-Computer Interaction

논문 출처:https://dl.acm.org/doi/10.1145/3613904.3642336AbstractCA(Conversational Agent)는 공감(empathy)를 이끌어내거나 투사하도록 디자인 됨공감은 인간의 필요를 더 잘 충족할 수도 있으나, 기만적(deceptive)이고 잠재적으로 착취적(exploitative)일 수 있음연구 목표: (1) CA 상호작용에서의 공감 특징짓기(characterize) (2) 인간 vs CA 공감의 유발을 구별하는 것(distinguishing)의 중요성 강조연구 방법: 65개의 서로 다른 인간 정체성(identity)와 대화하며 공감 반응 보이도록 prompting → LLM이 공감 반응을 보이거나 모델링을 다르게 하는지 비교연구 결과특정 identity..

learning/HCIAI 2025.01.21

[강의] CS25 Transformers United V4 3강: Aligning Open Language Models(Nathan Lambert)

강의 출처: https://web.stanford.edu/class/cs25/ CS25: Tranformers United!Disussing the latest breakthroughs with Transformers in diverse domainsweb.stanford.edu Aligning Open Language ModelsA heavily abbreviated history of language models (LMs)cf) stochastic parrots: 언어 모델이 단순히 데이터를 흉내 내는 역할만 한다는 비판적 시각https://dl.acm.org/doi/10.1145/3442188.3445922Can ChatGPT exist without RLHF?cf) RLHF(Reinforcemen..

learning/Lectures 2025.01.20