์๋
ํ์ฌ ์ง์์ผ๋ก ์ฐ์ธ๋ํ๊ต AI ๊ต์ก์ ๊ธ์์ผ๋ง๋ค 7์ฃผ๊ฐ ์๋ฃํ์ต๋๋ค.
๋น์ ๊ฐ์ฅ ํฅ๋ฏธ๋กญ๊ฒ ๋ค๋ฃจ์๋ ํ๋ก์ ํธ ์ฃผ์ ์ธ 'Chain of Thought(CoT)'์ ๋ํด ์ ๋ฆฌํ๋ ค๊ณ ํฉ๋๋ค.
๋ฐํ ๋ด๋น์๋ก์ ๋ณต์กํ ๊ฐ๋
์ ์ต๋ํ ์ฝ๊ฒ ํ์ด์ ์ค๋ช
ํ๋ ค ๋
ธ๋ ฅํ๋ ๋ด์ฉ๋ค์ ํต์ฌ ์์ฃผ๋ก ๊ณต์ ํ๊ฒ ์ต๋๋ค.
๐ง Chain-of-Thought (CoT) ๊ฐ ๋ฌด์์ธ๊ฐ?
LLM์ด ๋จ์ํ ๋ต๋ง ์ฐพ์๋ด๋ ๊ฒ์์ ๊ทธ์น์ง ์๊ณ , ๋
ผ๋ฆฌ์ ์ฌ๊ณ ๋ฅผ ํ ์ ์๋๋ก ๋๋ ๋ฐฉ๋ฒ๋ก ์
๋๋ค.
์๋ ๊ทธ๋ฆผ์์ LLM์๊ฒ ํ์ด๊ณผ์ ์ ์ฐ๋๋ก ์ ๋ํ๋๋, ๊ธฐ์กด์ ํ๋ ธ๋ ๋ต์ ๋ง์ถ๋ฉฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋๋ค.
์ธ๋ฅ๊ฐ AI์๊ฒ ๊ธฐ๋ํ๋ ๊ฒ์ ๋จ์ํ ํ์ต๋ ๋ด์ฉ์ ๊ทธ๋๋ก ๋ด๋ฑ๋ ๊ฒ์ด ์๋๋๋ค.
์ธ๋ฅ์ ๋ฏธ์ ๋ฌธ์ ๋ฅผ ์ธ์ ๊ฐ๋ ํด๊ฒฐํด์ฃผ๊ธธ ๊ธฐ๋ํ ์์กฐ ์ ์ฉ ํฌ์ํ๊ณ ์๋ ๊ฒ์
๋๋ค.
๊ทธ๋ฐ ๊ด์ ์์ ๋ดค์ ๋, ๋จ์ํด ๋ณด์ด๋ ์ด ๋ฐฉ๋ฒ๋ก ์ด ๊ทธ ํด๋ต์ ์ค๋ง๋ฆฌ๊ฐ ๋ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.

https://arxiv.org/abs/2201.11903
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
We explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in su
arxiv.org
โจ Self-consistency (์๊ธฐ ์ผ๊ด์ฑ)?
์ ์๊ฐํด๋ด
์๋ค. LLM์ ๊ฒฐ๊ณผ๋ ๊ฒฐ๊ตญ ํ๋ฅ ์ ์ํด์ ๋ณ๊ฒฝ๋ ์ ์๋ ๊ฐ์
๋๋ค. ๋๊ฐ์ ์
๋ ฅ๊ฐ์ ๋ฃ์์ ๋ ๋ค์ํ ๋ต๋ณ์ด ๋์ถ๋ ์ ์์ต๋๋ค.
๊ทธ๋ผ ์ฌ๋ฌ ๋ฒ ์
๋ ฅํ ํ ๋ณต์ ๊ฐ์ ๋ต๋ณ์ ๋ฐ๊ณ , ํฌํ๋ก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ๋ ์๊ฐํด๋ณผ ์ ์์ ๊ฒ์
๋๋ค.
๊ทธ๊ฒ์ด Self-consistency ๋ฐฉ๋ฒ์
๋๋ค.
์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด Greedy decode ๋ฐฉ๋ฒ์ผ๋ก๋ ํ ๊ฒฝ๋ก๋ง ํ์ํ๊ธฐ ๋๋ฌธ์ ์๋์ ์ผ๋ก ์ค์์ ์ทจ์ฝํ ๋ชจ์ต์ ๋ณด์
๋๋ค.
๋ค์ํ ๊ฒฝ๋ก๋ฅผ ํ์ํ๊ณ , ๊ฐ์ฅ ๋ง์ด ๋ฑ์ฅํ๋ ๋ต ์ฆ ์๊ธฐ ์ผ๊ด์ฑ์ด ๋์ ๋ต์ ์ต์ข
์ผ๋ก ์ง๊ณํ๋ ๋ฐฉ๋ฒ๋ก ์
๋๋ค.

https://arxiv.org/abs/2203.11171
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, self-consistency, to replace the naive greedy decoding used in chain-
arxiv.org
๐ค ๊ธฐ๊ณ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํ๋จํ๋ค?
Self-consistency ๋ฐฉ๋ฒ์ ๋ง๋ฅ์ด ์๋๋๋ค.
๋ง์ฝ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ์ฑ๋ฅ์ด ๋๋ฌด ๋ฎ์ ๋ค์์ ์ํ์ด ์ค๋ต์ ์์ฑํ๋ฉด, ์ค๋ต์ด ๊ฒฐ๊ณผ๋ก ๋์ถ๋๊ฒ ๋ฉ๋๋ค.
๊ทธ๋์ ๋ต๋ณ์ ๋ํ ์ ํ๋๋ฅผ ํ๊ฐํ๋ ๋ชจ๋ธ์ด ๊ณ ์๋์์ต๋๋ค.
- ORM (Outcome Reward Model): ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ธ์ด ํ๋จํด ์ ์๊ฐ ๊ฐ์ฅ ๋์ ์ํ์ ์ ํํฉ๋๋ค.
- PRM (Process Reward Model): ๊ฐ ๋จ๊ณ๋ฅผ ๊ฐ๋ณ ์ํผ์๋๋ก ์ทจ๊ธํ๋ฉฐ, ๊ฐ ๋จ๊ณ ๋ง๋ค ๋ชจ๋ธ์ด ์ ์๋ฅผ ์ธก์ ํฉ๋๋ค. (์ง๊ธ๊น์ง์ ๋จ๊ณ๋ค์ด ์ ํํ๊ฐ๋ฅผ ํ๊ฐ)

๋
ผ๋ฌธ์ ๋ด์ฉ์ผ๋ก๋ PRM, ORM ๋ฐฉ๋ฒ์ ํตํด ์ค๋ฅ์จ์ ์ ์ํ๊ฒ ์ค์๋ค๊ณ ํฉ๋๋ค.
๋ํ ์ด ๋ฐฉ๋ฒ์ด ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์์ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ ํนํ ๋ณต์กํ ์ถ๋ก (์ํ, ์ฝ๋ฉ)์์ ํจ์จ์ฑ์ด ๊ทน๋ํ๋์๋ค๊ณ ํฉ๋๋ค.

https://arxiv.org/abs/2211.14275
Solving math word problems with process- and outcome-based feedback
Recent work has shown that asking language models to generate reasoning steps improves performance on many reasoning tasks. When moving beyond prompting, this raises the question of how we should supervise such models: outcome-based approaches which superv
arxiv.org
์ ๋
ผ๋ฌธ์์ ๋ฐํํ PRM ๋ชจ๋ธ์ด ์ํ ๋ฌธ์ ์๋ง ํนํ๋์ด์๋ค๋ณด๋, ๋ค์ํ ๋๋ฉ์ธ์๋ ์ทจ์ฝํ ๋ชจ์ต์ ๋ณด์์ต๋๋ค.
๊ทธ๋ฌ๋ ๊ทธ ํ ๋ฐํ๋ Versa PRM์ ์ฌ๋ฌ ๋๋ฉ์ธ์ ํ์ต ์ํด์ผ๋ก์จ ์ด๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ PRM์ด ์ฌ๋ฌ ๋๋ฉ์ธ์์ ๋๊ฐ์ ๋๋ฌ๋ผ ์ ์๋ค๋ ๊ฒ์ ์์ฌํ์ต๋๋ค.

https://arxiv.org/abs/2502.06737
VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data
Process Reward Models (PRMs) have proven effective at enhancing mathematical reasoning for Large Language Models (LLMs) by leveraging increased inference-time computation. However, they are predominantly trained on mathematical data and their generalizabil
arxiv.org
๐ค ์ ๋ฐฉ๋ฒ๋ค์ ๋ฌธ์ ์ ์?
์ ๋ฐฉ๋ฒ๋ค์ ๋ฐ๋ผ๊ฐ๋ค๋ณด๋ฉด ์ ์ ๋ ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์์ ๊ฐ๊น์ ์ง๋ ๊ฒ์ด ๋๊ปด์ง๋๋ค.
ํ์ง๋ง ๋น์ฉ ๋ฌธ์ ๊ฐ ์กด์ฌํฉ๋๋ค.
๊ณ ์ฑ๋ฅ LLM ํ๋๋ฅผ ์๋นํ๋ ๊ฒ๋ ๋ถ๋ด์ธ๋ฐ, CoT์ ํน์ฑ์ k๊ฐ์ ์ํ์ ์ถ์ถํ๊ณ ์ฌ๊ธฐ์ ๊ณผ์ ๋ง๋ค ์ ์๋ฅผ ๋งค๊ธธ PRM ๋ชจ๋ธ๊น์ง ๋ณ๋๋ก ์ด์ํด์ผ ํ๋ค๋ฉด ์ด๋ ์๊ฐ์ /์์์ ๋น์ฉ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฒ์ ๋๋ค.
๊ต์ก์ ๋ค์ผ๋ฉด์๋ ์ด ํฅ๋ฏธ๋ก์ด ๋ฐฉ๋ฒ์ ์ด๋ป๊ฒ ์ค๋ฌด ํ๊ฒฝ์ ๋
น์ฌ๋ผ ์ ์์๊น์ ๋ํ ๊ณ ๋ฏผ์ ํ์ต๋๋ค.
๊ทธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ ์๋๋ฅผ ํ๋ ๊ฒ์ด ์ฐ๊ตฌ ์ฃผ์ ์์ต๋๋ค. (๋ฌผ๋ก ์๊ฐ์ด ๋ถ์กฑํด ์๋ฒฝํ ํด๊ฒฐ์ ๋ชป ํ์ง๋ง์ ๐
)
๐ฅ ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ
๋
ผ๋ฆฌ์ ์ถ๋ก ์ ํ์ฌ LLM์ ํ๊ฐํ๋ ๋ฐฉ์์
๋๋ค.
HuggingFace Dashboard์์ ๋ชจ๋ธ์ ํ๊ฐํ๋ ์งํ๋ฅผ ๋ณด๋ฉด reasoning์ ํ๊ฐํ๋ ๋ฐ์ดํฐ์
์ด ๋ค์ ์์ต๋๋ค.
๊ทธ๋งํผ ํ์ฌ ๋ชจ๋ธ์์ ์ค์ํ ๋ถ๋ถ์์ ๋ฐ์ฆํ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
https://huggingface.co/docs/leaderboards/open_llm_leaderboard/about#tasks
About · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
ํต๊ณํ์ ์ ๊ณตํ ์
์ฅ์์, ํ๋์ ๋ฅ๋ฌ๋์ ๋ถ์์ ๋ณต์กํ ์ฌ๊ฒฝ์ผ๋ก ์ง์ผ๋ณด์์ต๋๋ค.
ํต๊ณํ์ ํ์์ ๋ฐ์ ์์ธ์ ๋ชจ๋ธ๋งํ๊ณ ๊ฐ ๋ณ์์ ๊ฒฝํฅ์ฑ์ ํ์
ํ๋ ํด์์ ํ๋ฌธ์ธ ๋ฐ๋ฉด, ๋ฅ๋ฌ๋์ ๋ฐ์ด๋ ์์ธก๋ ฅ์ ๋นํด ๊ทธ ๋ด๋ถ ๊ธฐ์ ๋ ์ ์ ์๋ ๋ธ๋๋ฐ์ค์๊ธฐ ๋๋ฌธ์
๋๋ค.
์์ฅ์ ํด์๋ณด๋ค ์์ธก์ ํจ์จ์ฑ์ ์์ ๋ค์ด์ฃผ์์ง๋ง, ์ ๋ฌธ๊ฐ๋ก์์ ๊ฐ์ฆ์ ์ฌ์ ํ์ต๋๋ค.
๊ทธ๋ฐ๋ฐ CoT๋ฅผ ํตํด์๋ผ๋ฉด "AI๊ฐ ์ ์ด๋ฐ ๋ต์ ๋ด๋์๋๊ฐ?"์ ๋ํ ํด๋ต์ ์ค ์ ์์ต๋๋ค.
์ด๋ฅผ ํตํด์ ๋ฅ๋ฌ๋์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ผ๋ฉฐ, ์ ์ ๊ฐ์ ํต๊ณ์ ์ฌ๊ณ ๋ฅผ ํ๋ ์ด๋ค๋ ๋ฉ๋ํ ์ ์๋ ์ค๋ช
๊ฐ๋ฅํ ์ ๋ขฐ์ฑ์ ๊ฐ์ง๊ฒ ๋์์ต๋๋ค.
ํนํ ์๋ฃ, ๋ฒ๋ฅ , ๊ธ์ต ๋ฑ ๊ทผ๊ฑฐ๊ฐ ์๋ช
์ธ ์ ๋ฌธ ๋ถ์ผ์์ CoT๋ ๋จ์ํ ๊ธฐ์ ์ ๋์ด ํต์ฌ์ ์ธ ์์ ์ฅ์น ์ญํ ์ ์ํํ ๊ฒ์
๋๋ค.
์ฌ์ค ๋น์ฉ๊ณผ ์๊ฐ ๋ฌธ์ ๋ ํ๋์จ์ด ๊ฐ์์ด๋ ๋ชจ๋ธ ์ํํ ๊ธฐ์ ๋ก ์ ์ฐจ ํด๊ฒฐ๋ ์ ์๋ ๋ฌธ์ ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
ํ์ง๋ง ๋
ผ๋ฆฌ์ ์ผ๋ก ์๊ฐํ๋ ๋ฅ๋ ฅ์ ๋์ฒด ๋ถ๊ฐ๋ฅํ ๊ฐ์น๋ผ๊ณ ์๊ฐ๋๋ฉฐ, ์์ผ๋ก ์ด๋ป๊ฒ ๋ฐฉํฅ์ด ํ๋ฌ๊ฐ์ง ๊ธฐ๋๊ฐ ๋ฉ๋๋ค.
