Transformer와 LLM
ChatGPT는 어떻게 작동하는가?
가장 그럴듯한 다음 단어를 예측하는 기계
ChatGPT는 세계 지식을 가진 초인이 아닙니다. 통계적으로 가장 그럴듯한 다음 단어를 예측하는 기계입니다. "오늘 날씨가" 다음에 "좋다"가 올 확률이 "자동차"보다 높다는 것을 수십억 개의 문장에서 학습한 것입니다.
이 단순한 원리가 어떻게 시를 쓰고, 코드를 작성하고, 논문을 요약할 수 있을까요? 비밀은 어텐션(Attention) 메커니즘에 있습니다. "이 단어를 이해하려면 문장의 어떤 다른 단어에 주목해야 하는가?"를 계산하는 장치입니다.
이 장에서는 어텐션의 작동 원리, 자동회귀 생성, Transformer의 구조, 그리고 LLM의 능력과 한계를 실습합니다. 이 책의 마지막 장으로서, 데이터 리터러시에서 시작한 여정의 정점입니다.
RNN의 한계: 왜 Transformer가 필요한가
34장에서 배운 RNN에는 두 가지 근본적 한계가 있습니다.
순차 처리
RNN은 단어를 하나씩 순서대로 처리합니다. 앞 단어를 처리해야 다음 단어를 처리할 수 있으므로 병렬화가 불가능합니다. GPU 수천 개가 있어도 활용하지 못합니다.
장기 기억 한계
LSTM이 개선했지만, 수천 단어 떨어진 정보를 기억하기는 여전히 어렵습니다. 긴 문서를 처리할 때 초반 내용을 잊어버립니다.
Attention(Q, K, V) = softmax(Q * K^T / sqrt(d_k)) * V
Q=Query(질문), K=Key(열쇠), V=Value(값). 각 단어가 Q, K, V를 동시에 가진다.
"나는 은행에서 돈을 빌렸다"를 읽을 때, "은행"이 금융기관인지 나무인지 어떻게 알 수 있을까요? 주변 단어를 봐야 합니다. "돈"과 "빌렸다"가 있으니 금융기관입니다. 어텐션 메커니즘은 바로 이것을 수학적으로 구현합니다.
각 단어는 "나에게 관련 있는 정보가 뭐지?"라는 질문(Query)을 던집니다. 다른 모든 단어는 "나는 이런 정보를 가지고 있어"라는 열쇠(Key)를 제시합니다. 질문과 열쇠가 잘 맞는 단어의 값(Value)을 가져옵니다. "은행"이라는 단어가 "돈"과 어텐션이 높으면 금융기관, "잎"과 높으면 은행나무로 해석됩니다.
실습 1: 어텐션 시각화
문장을 선택하면 단어 간 어텐션 가중치가 히트맵으로 표시됩니다. 단어를 클릭하면 해당 단어가 어떤 다른 단어에 주목하는지 연결선으로 확인할 수 있습니다. 특히 "은행"이 문맥에 따라 다른 단어에 주목하는 것을 비교하세요.
어텐션 히트맵
어텐션 연결 (단어 클릭)
자동회귀 생성: 한 단어씩 만들어간다
GPT는 텍스트를 한 단어(토큰)씩 순서대로 생성합니다. 이전에 생성한 모든 단어를 입력으로 받아 다음 단어의 확률 분포를 예측하고, 그 중 하나를 선택합니다. 이것을 자동회귀(autoregressive) 생성이라 합니다.
여러 사람이 돌아가며 한 문장씩 이어서 소설을 쓰는 게임을 상상하세요. GPT는 혼자서 이 게임을 합니다. 직전까지 쓴 모든 내용을 읽고, 가장 자연스러운 다음 단어를 선택합니다. 이 과정을 반복하면 한 편의 글이 완성됩니다.
Temperature가 낮으면(0에 가까우면) 확률이 가장 높은 단어만 선택합니다. 결정적이고 반복적인 텍스트. Temperature가 높으면(1 이상) 확률이 낮은 단어도 선택될 수 있습니다. 창의적이지만 일관성이 떨어질 수 있습니다.
실습 2: 다음 단어 예측기
간단한 n-gram 모델로 다음 단어를 예측합니다. 단어를 입력하면 상위 5개 후보와 확률이 표시됩니다. 후보를 클릭하면 선택되어 다음 예측으로 이어집니다. Temperature 슬라이더로 확률 분포의 날카로움을 조절해보세요.
확률 분포
Transformer vs RNN: 근본적 차이
두 아키텍처의 핵심 차이를 시각적으로 비교합니다.
| 특성 | RNN | Transformer |
|---|---|---|
| 처리 방식 | 순차적 (좌 -> 우) | 병렬 (모든 위치 동시) |
| 장거리 의존성 | 기울기 소실로 어려움 | 어텐션으로 직접 연결 |
| 학습 속도 | 느림 (병렬화 불가) | 빠름 (GPU 활용 극대) |
| 위치 정보 | 순서 자체에 내재 | 위치 인코딩 필요 |
| 메모리 | 고정 크기 숨겨진 상태 | 문맥 길이에 비례 |
실습 3: 처리 방식 비교 애니메이션
같은 문장을 RNN과 Transformer가 처리하는 방식의 차이를 애니메이션으로 관찰합니다. RNN은 왼쪽에서 오른쪽으로 한 단어씩 순차적으로, Transformer는 모든 단어를 동시에 처리합니다.
RNN (순차 처리)
Transformer (병렬 처리)
GPT: Transformer를 거대하게 쌓다
GPT(Generative Pre-trained Transformer)는 Transformer의 디코더를 수십~수백 층 쌓고, 인터넷의 방대한 텍스트로 사전 훈련한 모델입니다.
| 모델 | 파라미터 수 | 학습 데이터 | 연도 |
|---|---|---|---|
| GPT-1 | 1.2억 | BookCorpus | 2018 |
| GPT-2 | 15억 | WebText | 2019 |
| GPT-3 | 1,750억 | 인터넷 텍스트 | 2020 |
| GPT-4 | 비공개 (추정 1조+) | 다중 모달 | 2023 |
실습 4: AI 능력 한계 퀴즈
다섯 가지 문제 유형에 대해 "LLM이 정확히 답할 수 있을까?"를 예측해보세요. 각 문제를 읽고 "가능" 또는 "어려움"을 선택한 뒤 정답을 확인하세요.
실습 5: 책임 있는 AI -- 토론 시나리오
AI 기술이 사회에 미치는 영향에 대한 세 가지 시나리오를 읽고, 여러분의 판단을 선택하세요. 정답이 없는 문제입니다. 다양한 관점을 고려하며 토론하는 것이 목적입니다.
AI 도구를 사용하는 것만큼, AI의 한계와 윤리적 함의를 이해하는 것이 중요합니다. 데이터 편향, 프라이버시, 저작권, 일자리 변화, 의사결정의 투명성 -- 이 모든 것이 AI 시대의 시민이 알아야 할 주제입니다.
- Self-Attention은 모든 단어 쌍 간의 관련성을 동시에 계산하여 문맥을 파악한다.
- Transformer는 병렬 처리가 가능하여 RNN보다 학습이 빠르고 장거리 의존성에 강하다.
- GPT는 다음 토큰 예측이라는 단순한 목표를 거대한 규모로 학습한 것이다.
- Temperature는 생성의 다양성을 조절하는 핵심 파라미터이다.
- LLM은 수학 추론, 사실 확인, 공간 추론 등에서 여전히 한계가 있다.
- AI의 사회적 영향(편향, 프라이버시, 윤리)은 기술만큼 중요한 주제이다.
35장을 마칩니다. 기초 통계에서 시작해 추론, 회귀, 머신러닝, 딥러닝, 그리고 대규모 언어모델까지 도달했습니다.
이 모든 것의 근본은 1장에서 배운 데이터 리터러시입니다. 데이터를 읽고, 질문하고, 비판적으로 해석하는 능력 -- 이것이 아무리 정교한 알고리즘보다 먼저 필요한 역량입니다.
통계학은 불확실한 세계에서 합리적 판단을 내리는 도구입니다. 데이터 사이언스는 이 도구를 현실 문제에 적용하는 기술입니다. 여러분은 이제 그 출발선에 섰습니다.