[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

learning/MLDL

[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

silhumin9 2025. 3. 16. 20:35

1. Introduction

모델의 규모를 단순히 키우는 것만으로는 산술적 추론(arithmetic reasoning), 상식적 추론(commonsense reasoning), 기호적 추론(symbolic reasoning)과 같은 복잡한 논리적 문제를 해결하는 데 충분하지 않음
대형 언어 모델의 추론 능력을 활성화할 수 있는 간단한 방법을 탐구. 이 방법은 두 가지 핵심 아이디어에서 출발
- 산술적 추론 기술은 최종 정답을 도출하는 과정에서 자연어 기반의 논리적 사고 과정(natural language rationales)을 생성하는 방식에서 이점을 얻을 수 있음
- cf) 이전 연구에서는 모델이 자연어 기반의 중간 단계를 생성하도록 학습하는 방식을 제안한 바 있음. 예를 들어, 처음부터 모델을 학습하는 방법(Ling et al., 2017), 사전 학습된 모델을 미세 조정(fine-tuning)하는 방법(Cobbe et al., 2021), 자연어가 아닌 형식적 언어(formal language)를 활용하는 신경-기호적(neuro-symbolic) 접근 방식(Roy and Roth, 2015; Chiang and Chen, 2019; Amini et al., 2019; Chen et al., 2019) 등
- → 논리적 사고 과정을 활용한 학습 및 미세 조정(fine-tuning) 방법은 고품질의 중간 추론 과정(reasoning rationales)을 생성하는 데 높은 비용이 듦. 일반적인 기계 학습에서 사용하는 간단한 입력-출력 데이터보다 훨씬 복잡
- 대형 언어 모델은 프롬프팅을 통해 few-shot learning이 가능. 즉, 새로운 작업마다 별도의 모델 체크포인트를 미세 조정(fine-tuning)하는 대신, 몇 개의 입력-출력 예제(input-output exemplars)를 제공하는 프롬프팅(prompting) 방식을 사용할 수 있음
- → 전통적인 Few-shot Prompting 방식(Brown et al., 2020)은 추론 능력이 필요한 작업에서는 효과가 미미하며, 모델 크기가 증가해도 성능 향상이 크지 않음(Rae et al., 2021)
Chain-of-Thought Prompting(CoT)이라는 기법을 제안
- CoT란 정답을 도출하기까지의 논리적 중간 단계(reasoning steps)를 자연어로 표현한 것을 의미
- 언어 모델이 추론 작업(reasoning tasks)에서 Few-shot Prompting을 수행할 수 있도록 하는 방법을 연구하며, 입력과 함께 "Chain of Thought(CoT, 연쇄 사고 과정)"을 제공하는 방식을 탐색
- 우리는 CoT 프롬프팅을 산술적 추론, 상식적 추론, 기호적 추론 벤치마크에서 평가하였으며, 실험 결과 CoT 프롬프팅이 기존의 표준 프롬프팅(Standard Prompting)보다 훨씬 높은 성능을 달성했음을 확인
- 특히, 그림 2에서 보여주듯이 GSM8K(math word problem 벤치마크)에서 PaLM 540B 모델을 CoT 프롬프팅 방식으로 프롬프팅했을 때, 표준 프롬프팅보다 월등히 높은 성능을 기록하며, sota 성능을 달성
- 프롬프팅 기반 접근법은 중요한 의미를 가짐
  - 별도의 대규모 학습 데이터셋 없이도 모델 성능을 향상시킬 수 있으며,
  - 단일 모델 체크포인트(single model checkpoint)로 다양한 작업을 수행할 수 있음

2. CoT

CoT는 인간이 복잡한 문제를 해결하는 방식과 유사
문제를 중간 단계로 분해하고, 최종 답안을 내기 전에 각각을 해결
충분히 큰 언어 모델에 few-shot prompting의 예시로 CoT 추론을 적용하면 생각의 연쇄 생성

Chain-of-Thought Prompting의 장점

복잡한 문제를 해결할 수 있음
- 기존 Few-shot Prompting 방식으로는 해결하기 어려운 다단계 문제(multistep problem)를 해결하는 데 유리
- 수학 문제, 논리적 추론, 기호적 조작(symbolic manipulation) 등의 문제에서 더 높은 성능을 발휘
추론 과정이 해석 가능함 (Interpretability)
- CoT 방식에서는 모델이 내놓은 답의 과정이 자연어로 표현되기 때문에 모델이 왜 그런 결론을 내렸는지 해석 가능
작업에 대한 적응성 증가 (Generalizability)
- CoT는 단순한 질의응답(QA) 문제뿐만 아니라, 다양한 상식적 추론, 수학 문제, 논리적 문제 해결 등 다양한 작업에 적용될 수 있음
별도의 모델 학습 없이 즉시 사용 가능 (Zero-shot Learning 가능)
- CoT는 별도의 모델 재학습(fine-tuning) 없이 사전 학습된 대형 언어 모델을 그대로 사용할 수 있음이 중요한 특징
- 즉, 기존 모델을 변형하지 않고도 단순히 Prompting 방식을 바꾸는 것만으로 성능 향상 가능

3. Arithmetic Reasoning

3.1 실험 설계

본 연구에서는 Chain-of-Thought Prompting(CoT)이 산술적 추론(Arithmetic Reasoning) 문제에서 얼마나 효과적인지 평가하기 위해 여러 실험을 수행

사용된 벤치마크 데이터셋 (Math Word Problem Benchmarks):

GSM8K (Cobbe et al., 2021) - 초등학교 수준의 복잡한 수학 문제
SVAMP (Patel et al., 2021) - 다양한 구조의 수학 문제
ASDiv (Miao et al., 2020) - 광범위한 수학 문제
AQuA - 다단계 연산을 포함한 객관식 문제
MAWPS (Koncel-Kedziorski et al., 2016) - 기초적인 수학 문제

실험 방법:

Standard Prompting: 기존 Few-shot Prompting 방식으로 질문과 정답만 포함
Chain-of-Thought Prompting: 문제 해결 과정을 자연어로 설명하는 중간 논리 단계를 포함

사용된 언어 모델:

GPT-3 (175B)
LaMDA (137B)
PaLM (540B)
UL2 20B
Codex (code-davinci-002)

모델은 Greedy Decoding 방식으로 답변을 생성하며, LaMDA 실험에서는 5개의 랜덤 샘플을 사용하여 평균 성능을 계산

3.2 실험 결과

핵심 결과:

CoT 프롬프팅은 모델 크기가 클수록 효과적으로 작동함
- 작은 모델에서는 성능 향상이 크지 않음
- 100B 이상 모델에서 CoT 사용 시 급격한 성능 향상
복잡한 문제일수록 CoT의 성능 향상이 두드러짐
- GSM8K (가장 어려운 문제) → CoT를 사용하면 기존 성능보다 2배 이상 향상
- MAWPS (가장 쉬운 문제) → CoT의 영향이 크지 않음
CoT 프롬프팅을 적용한 PaLM 540B 모델이 GSM8K, SVAMP, MAWPS에서 새로운 SOTA(State-of-the-Art) 기록을 달성
- 기존 GPT-3 및 Fine-tuned 모델을 능가하는 성능을 보임
오답 분석:
- CoT를 사용한 경우에도 일부 오류가 발생했으며, 오답 유형은 계산 실수, 논리적 오류, 기호 해석 오류 등으로 분류됨

3.3 제거 실험 (Ablation Study)

CoT의 효과가 단순히 더 많은 텍스트를 생성한 결과인지, 혹은 특정 요소가 핵심인지 확인하기 위해 여러 변형 실험을 수행하였다.

Equation-only Prompting (수식만 포함하는 프롬프팅)
- 모델이 자연어 논리 과정 없이 수식만 생성하도록 유도
- 결과: 큰 성능 향상 없음 → CoT의 핵심은 자연어 기반 논리 과정임을 확인
Variable Compute-only Prompting (계산량 증가 실험)
- 모델이 단순히 더 많은 토큰을 생성하도록 유도
- 결과: 성능 향상 없음 → CoT의 효과는 단순한 토큰 증가 때문이 아님
Reasoning-after-Answer Prompting (정답 후 논리 과정 추가)
- 모델이 먼저 정답을 생성한 후, 나중에 논리적 사고 과정을 생성하도록 유도
- 결과: 성능 향상 없음 → 논리적 사고 과정이 정답을 도출하기 전에 필요함을 입증

3.4 CoT의 견고성 (Robustness of CoT)

cf) robustness의 의미: CoT가 다양한 조건(데이터셋, 모델 크기, 논리적 사고 과정, 프롬프팅 예제 변형)에서도 일관되게 높은 성능을 유지할 수 있는지

CoT의 견고성을 평가하기 위해 다음과 같은 변수를 변경하여 실험을 수행

다른 Annotator가 생성한 CoT 예제 사용
- 여러 명의 연구자가 각기 다른 스타일로 CoT 예제를 작성
- 결과: 어떤 Annotator가 작성해도 CoT는 표준 프롬프팅보다 높은 성능을 유지
다양한 문제 예제 적용
- GSM8K 훈련 세트에서 3개의 예제 세트를 무작위로 샘플링하여 CoT 수행
- 결과: 예제가 달라져도 CoT의 효과는 일관되게 유지됨
Prompt 순서 변경
- Few-shot 예제의 순서를 랜덤으로 바꾸어 실험
- 결과: 순서가 달라져도 CoT 효과는 유지됨
Few-shot 예제 개수 변경
- 8개에서 4개로 줄였을 때도 CoT 효과가 유지됨
- 즉, 소수의 예제만으로도 CoT 효과가 강하게 나타남

4. Commonsense Reasoning

4.1 개요

상식적 추론(commonsense reasoning): Chain-of-Thought Prompting(CoT) 기법이 단순한 수학 문제뿐만 아니라 상식적 추론(Commonsense Reasoning) 문제에서도 효과적인지 평가
상식적 추론이란?
- 인간이 일반적으로 알고 있는 일상적 지식과 논리를 바탕으로 문제를 해결하는 과정
- 언어 모델이 단순한 패턴 학습이 아닌, 실제 논리적 사고 과정을 수행하는지 평가하기에 적절한 과제
연구 목표:
- CoT를 활용하여 모델이 보다 논리적으로 상식적인 답변을 생성할 수 있는지 확인
- 기존 Few-shot Prompting 방식과 비교하여 CoT의 성능 향상 여부 분석
- 다양한 상식적 추론 벤치마크에서 CoT의 적용 가능성을 평가

4.2 실험 설정

1) 사용된 벤치마크 데이터셋

CSQA (CommonsenseQA): 일반 상식 문제 해결 (Talmor et al., 2019)
StrategyQA: 다단계 논리 추론 필요 (Geva et al., 2021)
Date Understanding: 날짜 관련 개념 이해 및 계산
Sports Understanding: 스포츠 관련 문장의 타당성 평가
SayCan: 로봇 조작을 위한 명령 해석 (Ahn et al., 2022)

2) 실험 방법

Standard Prompting (기존 방식): 질문과 정답만 포함
Chain-of-Thought Prompting: 논리적 사고 과정 포함

3) CoT 예제 구성 방식

CSQA, StrategyQA: 훈련 데이터에서 무작위 샘플링 후 CoT 생성
Date Understanding, Sports Understanding: 벤치마크 평가 세트에서 몇 개의 샘플을 골라 CoT 적용
SayCan: 로봇 제어를 위한 명령 해석을 포함한 CoT 생성

4.3 실험 결과

모델 크기가 커질수록 CoT의 효과가 커짐
모든 데이터셋에서 Standard Prompting보다 높은 성능을 보임
CoT 적용 후 주요 성능 개선 사례:
- StrategyQA: 기존 최고 성능(69.4%)을 75.6%로 개선 → 새로운 SOTA 달성
- Sports Understanding: 인간 전문가(84%)보다 높은 95.4%의 성능 달성
CoT가 특히 효과적인 데이터셋:
- StrategyQA, Date Understanding: 다단계 추론이 필요한 문제에서 CoT의 성능 향상이 두드러짐
- SayCan: 로봇 조작과 관련된 문제에서도 논리적 사고 과정이 중요한 역할을 함

4.4 결과 분석

1) CoT가 상식적 추론에서 효과적인 이유

단순한 패턴 학습을 넘어 논리적 사고를 유도
- 기존 Few-shot Prompting 방식은 단순히 질문과 정답의 패턴을 학습하려는 경향이 있음
- CoT는 모델이 실제 논리적 사고 과정을 수행하도록 유도하여 정답 예측 성능을 향상시킴
다단계 논리가 필요한 문제에서 큰 성능 향상
- StrategyQA, Date Understanding 등 한 번의 추론으로 해결할 수 없는 문제에서 CoT의 성능 향상이 특히 두드러짐
- 이는 CoT가 단순한 질문-답변 방식이 아닌, 논리적 추론 과정을 내재화하는 방식으로 동작함을 시사
CoT는 상식적 판단을 강화하는 역할 수행
- Sports Understanding 문제에서 CoT를 사용했을 때 "어떤 상황이 더 합리적인가?"를 고려하는 방식으로 응답이 개선됨
- 예를 들어, 특정 선수의 이름이 등장할 때 그가 해당 스포츠에서 실제로 활동하는지 판단하는 데 도움을 줌

2) CoT의 한계점

문제의 복잡성이 낮을 경우 CoT의 효과가 미미함
- CSQA(CommonsenseQA)처럼 단순한 상식 문항에서는 CoT가 성능 향상에 큰 영향을 미치지 않음
- 이는 모델이 이미 상식적인 개념을 학습한 경우, CoT가 추가적인 이점을 제공하지 않을 수도 있음을 의미
CoT의 논리적 흐름이 완벽하지 않음
- 일부 문제에서는 CoT가 논리적 오류를 포함한 추론을 수행하여 오답을 생성하는 경우가 있음
- 즉, CoT를 사용한다고 해서 항상 논리적으로 완벽한 답변이 생성되는 것은 아님

4.5 결론

CoT는 상식적 추론 문제에서도 효과적임
- 특히 StrategyQA, Date Understanding, SayCan 같은 복잡한 논리적 사고가 필요한 문제에서 성능 향상이 큼
- 기존 Standard Prompting보다 높은 정확도와 논리적 일관성을 유지
CoT는 단순한 패턴 학습이 아니라 실제 논리적 추론 능력을 강화함
- 다단계 논리가 필요한 경우, 모델이 논리적 사고 과정을 자연스럽게 따르도록 유도
- 기존 모델이 해결하기 어려웠던 문제에서도 효과적
일부 단순한 문제에서는 CoT의 효과가 제한적일 수 있음
- CSQA처럼 단순한 상식 문항에서는 큰 성능 차이를 보이지 않음
- 즉, CoT의 효과는 문제의 복잡성에 따라 달라질 수 있음
CoT의 논리적 일관성을 보장하기 위한 추가 연구 필요
- 일부 문제에서는 여전히 논리적 오류가 발생
- CoT가 항상 정답을 도출하는 것은 아니며, 논리적 검증 기법과의 결합이 필요할 수 있음

5. Symbolic Reasoning

5.1 개요

기호적 추론(Symbolic Reasoning): 문자열 조작, 패턴 인식, 논리적 규칙 적용과 같은 문제를 포함하며, 일반적인 언어 모델이 해결하기 어려운 영역 중 하나
연구 목표:
1. CoT가 기호적 추론 문제에서도 효과적인지 평가
2. 기존 Few-shot Prompting과 비교하여 CoT의 성능 향상 여부 분석
3. 기호적 조작(Symbolic Manipulation)이 필요한 다양한 문제에서 CoT의 적용 가능성을 검증

5.2 실험 설정

1) 사용된 기호적 추론 벤치마크 (Symbolic Reasoning Benchmarks)

다음 두 가지 대표적인 기호적 조작 문제를 실험 대상으로 선정

Last Letter Concatenation: 여러 단어에서 마지막 글자를 추출해 연결하는 문제
Coin Flip Tracking: 동전이 여러 번 뒤집혔을 때 최종 상태를 예측하는 문제

2) 실험 방법

Standard Prompting (기존 방식): 질문과 정답만 포함
Chain-of-Thought Prompting: 문제 해결 과정을 자연어로 설명하는 중간 논리 단계를 포함

5.3 실험 결과

1) CoT를 적용한 모델의 성능 향상

Standard Prompting은 기호적 조작 문제에서 거의 작동하지 않음
CoT를 적용하면 모델이 기호적 규칙을 학습하고 정답을 도출하는 데 도움을 줌
CoT 적용 후 주요 성능 개선 사례:
- Last Letter Concatenation 문제 → 기존 GPT-3의 10% 정확도가 CoT 사용 후 79%까지 상승
- Coin Flip Tracking 문제 → 모델이 일련의 동전 뒤집기 과정을 추적하여 90% 이상의 정확도를 달성

2) 데이터셋별 성능 분석

➡ 결론: 기호적 조작이 필요한 문제에서 Standard Prompting은 거의 작동하지 않지만, CoT를 활용하면 모델이 논리적 사고를 통해 정답을 도출할 수 있음.

5.4 분석

CoT가 기호적 추론에서 효과적인 이유

CoT는 단계별 논리를 유도함으로써 모델이 패턴을 더 쉽게 인식하게 함
- Standard Prompting은 단순한 문자 조작 패턴을 학습하려 하지만, CoT는 문제 해결의 논리적 과정을 포함하므로 모델이 더 정확하게 패턴을 학습할 수 있음
단순한 기호적 조작이 아니라 논리적 사고를 강화함
- CoT는 단순한 규칙 학습이 아니라, 모델이 연속적인 논리적 단계를 따라가도록 유도
- 예를 들어, 동전 뒤집기 문제에서 CoT는 "처음 상태 → 뒤집기 연산 → 최종 상태"의 사고 과정을 명확하게 정리하여 모델이 올바르게 추론할 수 있도록 도움

5.5 CoT의 한계점

긴 시퀀스의 문제에서는 여전히 한계가 있음
- 동전이 100번 이상 뒤집히는 경우, CoT를 사용하더라도 모델이 모든 과정을 정확히 따라가지 못함
- 즉, 연산량이 많아질수록 오류율이 증가
기호적 추론 문제에서 완벽한 성능을 보장하지 않음
- CoT가 기호적 조작 문제에서 큰 성능 향상을 보이지만, 규칙 기반(Symbolic Rules)을 직접 적용하는 방식보다는 여전히 낮은 성능을 보임
- 따라서, 기호적 문제를 해결하기 위해서는 CoT만으로 충분하지 않을 수도 있음

참고 문헌

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. 2022. Chain-of-thought prompting elicits reasoning in large language models. In Proceedings of the 36th International Conference on Neural Information Processing Systems (NIPS '22). Curran Associates Inc., Red Hook, NY, USA, Article 1800, 24824–24837.

'learning > MLDL' 카테고리의 다른 글

[논문 리뷰] Attention Is All You Need(Transformer) (2017) (0)	2025.02.16
[논문 리뷰] Language Models are Unsupervised Multitask Learners (GPT-2) (2019) (1)	2025.01.30
[논문 리뷰] Improving Language Understandingby Generative Pre-Training (GPT-1) (2018) (0)	2025.01.30
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (4)	2024.12.09
[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(Attention) (1)	2024.11.20

현재글[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

허밍 lab

vlm, Prompt Engineering, NLP, Zero shot, affective computing, dl, 논문리뷰, mldl, conversational AI, open ai, HCI, Transformer, llm, ML, GPT, Stanford, Ai, cs25, 인공지능, CHI,

Today :
Yesterday :

허밍 lab