PART 6 · 35장

Transformer와 LLM

ChatGPT는 어떻게 작동하는가?

가장 그럴듯한 다음 단어를 예측하는 기계

ChatGPT는 세계 지식을 가진 초인이 아닙니다. 통계적으로 가장 그럴듯한 다음 단어를 예측하는 기계입니다. "오늘 날씨가" 다음에 "좋다"가 올 확률이 "자동차"보다 높다는 것을 수십억 개의 문장에서 학습한 것입니다.

이 단순한 원리가 어떻게 시를 쓰고, 코드를 작성하고, 논문을 요약할 수 있을까요? 비밀은 어텐션(Attention) 메커니즘에 있습니다. "이 단어를 이해하려면 문장의 어떤 다른 단어에 주목해야 하는가?"를 계산하는 장치입니다.

이 장에서는 어텐션의 작동 원리, 자동회귀 생성, Transformer의 구조, 그리고 LLM의 능력과 한계를 실습합니다. 이 책의 마지막 장으로서, 데이터 리터러시에서 시작한 여정의 정점입니다.

RNN의 한계: 왜 Transformer가 필요한가

34장에서 배운 RNN에는 두 가지 근본적 한계가 있습니다.

순차 처리

RNN은 단어를 하나씩 순서대로 처리합니다. 앞 단어를 처리해야 다음 단어를 처리할 수 있으므로 병렬화가 불가능합니다. GPU 수천 개가 있어도 활용하지 못합니다.

장기 기억 한계

LSTM이 개선했지만, 수천 단어 떨어진 정보를 기억하기는 여전히 어렵습니다. 긴 문서를 처리할 때 초반 내용을 잊어버립니다.

Transformer -- 모든 단어를 동시에 보는 모델: RNN이 소설을 처음부터 끝까지 한 줄씩 읽는 독자라면, Transformer는 책의 모든 페이지를 한 번에 펼쳐놓고 보는 독자입니다. 각 단어가 문장의 다른 모든 단어와 직접 "대화"할 수 있으므로, 거리에 관계없이 관련 정보를 즉시 참조할 수 있습니다. RNN의 순차 처리 한계를 근본적으로 극복한 것이 Transformer입니다. 마치 회의에서 모든 참석자가 중간 전달자 없이 서로 직접 소통할 수 있는 것과 같습니다.

Self-Attention 핵심 수식:
Attention(Q, K, V) = softmax(Q * K^T / sqrt(d_k)) * V
Q=Query(질문), K=Key(열쇠), V=Value(값). 각 단어가 Q, K, V를 동시에 가진다.

어텐션의 비유 -- 문장을 읽을 때 어떤 단어에 주목할지 결정하는 메커니즘:
"나는 은행에서 돈을 빌렸다"를 읽을 때, "은행"이 금융기관인지 나무인지 어떻게 알 수 있을까요? 주변 단어를 봐야 합니다. "돈"과 "빌렸다"가 있으니 금융기관입니다. 어텐션 메커니즘은 바로 이것을 수학적으로 구현합니다.
각 단어는 "나에게 관련 있는 정보가 뭐지?"라는 질문(Query)을 던집니다. 다른 모든 단어는 "나는 이런 정보를 가지고 있어"라는 열쇠(Key)를 제시합니다. 질문과 열쇠가 잘 맞는 단어의 값(Value)을 가져옵니다. "은행"이라는 단어가 "돈"과 어텐션이 높으면 금융기관, "잎"과 높으면 은행나무로 해석됩니다.

실습 1: 어텐션 시각화

문장을 선택하면 단어 간 어텐션 가중치가 히트맵으로 표시됩니다. 단어를 클릭하면 해당 단어가 어떤 다른 단어에 주목하는지 연결선으로 확인할 수 있습니다. 특히 "은행"이 문맥에 따라 다른 단어에 주목하는 것을 비교하세요.

예문:

어텐션 히트맵

어텐션 연결 (단어 클릭)

핵심 관찰: "은행에서 돈을 빌렸다"에서 "은행"은 "돈"과 "빌렸다"에 높은 어텐션을 보입니다. "은행나무 잎이 떨어진다"에서 "은행"은 "나무"와 "잎"에 높은 어텐션을 보입니다. 같은 단어라도 문맥에 따라 주목하는 대상이 완전히 달라집니다. 이것이 Self-Attention이 단어의 문맥적 의미를 파악하는 방식입니다.

자동회귀 생성: 한 단어씩 만들어간다

GPT는 텍스트를 한 단어(토큰)씩 순서대로 생성합니다. 이전에 생성한 모든 단어를 입력으로 받아 다음 단어의 확률 분포를 예측하고, 그 중 하나를 선택합니다. 이것을 자동회귀(autoregressive) 생성이라 합니다.

비유: 이어쓰기 게임
여러 사람이 돌아가며 한 문장씩 이어서 소설을 쓰는 게임을 상상하세요. GPT는 혼자서 이 게임을 합니다. 직전까지 쓴 모든 내용을 읽고, 가장 자연스러운 다음 단어를 선택합니다. 이 과정을 반복하면 한 편의 글이 완성됩니다.

Temperature(온도) 파라미터:
Temperature가 낮으면(0에 가까우면) 확률이 가장 높은 단어만 선택합니다. 결정적이고 반복적인 텍스트. Temperature가 높으면(1 이상) 확률이 낮은 단어도 선택될 수 있습니다. 창의적이지만 일관성이 떨어질 수 있습니다.

실습 2: 다음 단어 예측기

간단한 n-gram 모델로 다음 단어를 예측합니다. 단어를 입력하면 상위 5개 후보와 확률이 표시됩니다. 후보를 클릭하면 선택되어 다음 예측으로 이어집니다. Temperature 슬라이더로 확률 분포의 날카로움을 조절해보세요.

시작 단어: Temperature: 1.0

확률 분포

직접 해보기: (1) Temperature를 0.1로 낮추세요. 항상 같은 단어가 최우선 후보입니다. (2) Temperature를 2.0으로 올리세요. 예상치 못한 단어가 높은 확률로 나타납니다. (3) 여러 단어를 이어서 선택해보세요. 문장이 자연스럽게 이어지는가요? 이것이 GPT의 기본 작동 원리입니다 -- 훨씬 큰 규모와 정교한 확률로.

Transformer vs RNN: 근본적 차이

두 아키텍처의 핵심 차이를 시각적으로 비교합니다.

특성	RNN	Transformer
처리 방식	순차적 (좌 -> 우)	병렬 (모든 위치 동시)
장거리 의존성	기울기 소실로 어려움	어텐션으로 직접 연결
학습 속도	느림 (병렬화 불가)	빠름 (GPU 활용 극대)
위치 정보	순서 자체에 내재	위치 인코딩 필요
메모리	고정 크기 숨겨진 상태	문맥 길이에 비례

실습 3: 처리 방식 비교 애니메이션

같은 문장을 RNN과 Transformer가 처리하는 방식의 차이를 애니메이션으로 관찰합니다. RNN은 왼쪽에서 오른쪽으로 한 단어씩 순차적으로, Transformer는 모든 단어를 동시에 처리합니다.

RNN (순차 처리)

처리된 단어

0/6

소요 단계

Transformer (병렬 처리)

처리된 단어

0/6

소요 단계

핵심 차이: RNN은 6단어 문장을 처리하는 데 6단계가 필요합니다. Transformer는 1단계에 모든 단어를 동시에 처리합니다. 이 차이가 학습 속도의 비약적 향상을 가져왔고, 거대 언어 모델의 훈련을 가능하게 만들었습니다.

GPT: Transformer를 거대하게 쌓다

GPT(Generative Pre-trained Transformer)는 Transformer의 디코더를 수십~수백 층 쌓고, 인터넷의 방대한 텍스트로 사전 훈련한 모델입니다.

쉽게 말하면 -- "다음 단어를 예측하는 것"을 거대하게 반복: GPT의 학습 목표는 놀라울 정도로 단순합니다. "오늘 날씨가 [?]" -- 빈칸에 들어갈 단어를 맞추는 것입니다. 이 빈칸 맞추기를 수십억 개의 문장에서 수백만 번 반복하면, 문법, 사실 지식, 추론 능력까지 자연스럽게 습득하게 됩니다. 마치 수만 권의 책을 읽은 사람이 문장 완성을 잘하는 것처럼, GPT는 방대한 텍스트에서 "다음에 올 가능성이 가장 높은 단어"의 패턴을 학습한 것입니다.

모델	파라미터 수	학습 데이터	연도
GPT-1	1.2억	BookCorpus	2018
GPT-2	15억	WebText	2019
GPT-3	1,750억	인터넷 텍스트	2020
GPT-4	비공개 (추정 1조+)	다중 모달	2023

규모의 힘 (Scaling Laws): 모델 크기, 데이터 양, 연산량을 동시에 키우면 성능이 예측 가능하게 향상됩니다. 이 "스케일링 법칙"이 거대 모델 경쟁의 이론적 토대입니다. 하지만 무한히 키울 수는 없습니다 -- 비용, 에너지, 그리고 수확 체감의 법칙이 있습니다.

LLM의 한계 -- 통계적 패턴이지 이해가 아니다: LLM이 놀라운 결과를 내지만, 그 본질은 "이해"나 "사고"가 아닙니다. 학습 데이터에서 본 패턴의 통계적 재조합입니다. "2+3=5"를 아는 것이 아니라, "2+3=" 다음에 "5"가 올 확률이 높다는 패턴을 학습한 것입니다. 그래서 학습 데이터에 없거나 모호한 정보는 그럴듯하게 지어내기도 합니다(환각, hallucination). LLM의 출력을 무조건 신뢰하는 것이 아니라, 비판적으로 검증하는 태도가 AI 시대의 핵심 리터러시입니다.

실습 4: AI 능력 한계 퀴즈

다섯 가지 문제 유형에 대해 "LLM이 정확히 답할 수 있을까?"를 예측해보세요. 각 문제를 읽고 "가능" 또는 "어려움"을 선택한 뒤 정답을 확인하세요.

LLM의 약점 패턴: (1) 수학 추론: 단순 계산은 가능하지만 복잡한 다단계 추론은 실수가 잦습니다. (2) 사실 확인: 학습 데이터에 있는 정보는 정확하지만, 없거나 모호한 정보는 그럴듯하게 지어냅니다(환각, hallucination). (3) 공간 추론: 물리적 세계의 3D 관계를 이해하지 못합니다. (4) 시간 논리: "~하기 전에 ~했다" 같은 시간 순서가 복잡해지면 혼동합니다. (5) 상식 추론: 대부분 잘 하지만, 드문 상황에서는 엉뚱한 답을 할 수 있습니다.

실습 5: 책임 있는 AI -- 토론 시나리오

AI 기술이 사회에 미치는 영향에 대한 세 가지 시나리오를 읽고, 여러분의 판단을 선택하세요. 정답이 없는 문제입니다. 다양한 관점을 고려하며 토론하는 것이 목적입니다.

35장의 핵심

Self-Attention은 모든 단어 쌍 간의 관련성을 동시에 계산하여 문맥을 파악한다.
Transformer는 병렬 처리가 가능하여 RNN보다 학습이 빠르고 장거리 의존성에 강하다.
GPT는 다음 토큰 예측이라는 단순한 목표를 거대한 규모로 학습한 것이다.
Temperature는 생성의 다양성을 조절하는 핵심 파라미터이다.
LLM은 수학 추론, 사실 확인, 공간 추론 등에서 여전히 한계가 있다.
AI의 사회적 영향(편향, 프라이버시, 윤리)은 기술만큼 중요한 주제이다.

교과서를 마치며

35장을 마칩니다. 기초 통계에서 시작해 추론, 회귀, 머신러닝, 딥러닝, 그리고 대규모 언어모델까지 도달했습니다.

이 모든 것의 근본은 1장에서 배운 데이터 리터러시입니다. 데이터를 읽고, 질문하고, 비판적으로 해석하는 능력 -- 이것이 아무리 정교한 알고리즘보다 먼저 필요한 역량입니다.

통계학은 불확실한 세계에서 합리적 판단을 내리는 도구입니다. 데이터 사이언스는 이 도구를 현실 문제에 적용하는 기술입니다. 여러분은 이제 그 출발선에 섰습니다.

← 목차로 돌아가기