경제학 PART 5 · 30장

반복 게임과 전략의 진화

한 번이 아니라 여러 번 만나면 달라진다

한 번만 만나면 배신이 합리적이다. 하지만 내일 또 만난다면?

죄수의 딜레마에서 1회 게임이면 배신이 우월전략입니다. 하지만 같은 상대와 수백 번, 수천 번 만난다면? 배신하면 다음에 보복당할 수 있습니다. 협력하면 상호 이익의 관계가 지속될 수 있습니다.

1984년, 정치학자 로버트 액셀로드(Robert Axelrod)는 전 세계 학자들에게 죄수의 딜레마 전략을 제출하게 한 뒤 토너먼트를 열었습니다. 우승 전략은 놀랍도록 단순한 팃포탯(Tit-for-Tat)이었습니다.

이 장의 목표

반복 게임에서 협력이 가능해지는 원리 이해
Axelrod 토너먼트에서 팃포탯의 승리를 체험
다양한 전략의 대결 결과를 시뮬레이션
전략 진화 다이내믹스를 시각화
할인율과 협력의 관계 탐구

반복 게임의 기본

유한 반복 vs 무한 반복

유한 반복 (횟수가 정해진 경우): 마지막 라운드에서 배신 → 그 전 라운드에서도 배신 → ... 역진귀납법으로 모든 라운드에서 배신이 균형.

무한 반복 (끝을 모르는 경우): "마지막 라운드"가 없으므로 보복 가능 → 협력이 균형이 될 수 있음!

규칙:

1. 첫 라운드: 협력

2. 이후: 상대가 지난 라운드에 한 것을 그대로 따라함

특징: 착함(먼저 배신 안 함), 보복적(배신에 즉시 반응), 관대(상대가 협력하면 바로 용서), 단순(이해하기 쉬움)

주요 전략 목록

항상 협력(Always Cooperate): 무조건 협력. 착하지만 이용당함.
항상 배신(Always Defect): 무조건 배신. 단기 이득, 장기 손해.
팃포탯(Tit-for-Tat): 협력으로 시작, 이후 상대를 따라함.
관대한 팃포탯(Generous TFT): 팃포탯이지만 10% 확률로 배신을 용서.
파블로프(Pavlov): 이전 결과가 좋았으면 같은 선택, 나빴으면 바꿈.
랜덤(Random): 50/50 동전 던지기.

1. Axelrod 토너먼트 시뮬레이터

6가지 전략이 라운드로빈 방식으로 200라운드씩 대결합니다. 모든 전략 쌍이 만나며, 총점이 가장 높은 전략이 우승합니다. 어떤 전략이 우승할까요?

라운드 수:

우승 전략

우승 점수

총 라운드

토너먼트 분석

토너먼트를 여러 번 실행해 보세요. 팃포탯이 항상 우승하나요?

라운드 수를 바꾸면 결과가 달라지나요?

2. 전략 1:1 대결

두 전략을 선택하여 직접 대결시켜 보세요. 라운드별 결과를 테이블로 확인하고, 누적 점수 추이를 차트로 볼 수 있습니다.

전략 A: 전략 B:

A 총점

B 총점

협력 비율

전략 비교

팃포탯 vs 항상 배신, 팃포탯 vs 항상 협력, 항상 배신 vs 항상 협력을 각각 비교하세요.

어떤 대결에서 팃포탯이 가장 높은 점수를 얻나요?

3. 전략 진화 시뮬레이션

100명으로 이루어진 집단이 있습니다. 각 전략의 초기 비율을 설정하세요. 매 세대마다 점수가 낮은 전략이 점수가 높은 전략으로 전환됩니다. 어떤 전략이 살아남을까요?

팃포탯: 30명 항상 배신: 30명 항상 협력: 20명 랜덤: 20명

합계: 100명

세대 수:

진화 실험

"항상 배신"이 90명이고 "팃포탯"이 10명인 집단에서 시작하면 결과가 어떻게 될까요?

반대로 "항상 협력"이 대다수인 집단에 "항상 배신"이 소수로 침입하면?

4. 할인율과 협력의 조건

미래 보수를 현재 가치로 할인하는 비율을 할인인자(delta)라고 합니다. delta가 클수록 미래를 중시하고, 작을수록 현재만 중시합니다. delta가 충분히 크면 협력이 유지됩니다.

죄수의 딜레마 보수: 협력(3,3), 배신유혹(5), 배신당함(0), 상호배신(1)

팃포탯으로 협력 유지 시 보수: 3 + 3δ + 3δ² + ... = 3/(1-δ)

한 번 배신 후 보복당하는 보수: 5 + 1δ + 1δ² + ... = 5 + δ/(1-δ)

협력 조건: 3/(1-δ) > 5 + δ/(1-δ)

정리: δ > 1/2 → 미래를 절반 이상 중시하면 협력이 유지됩니다.

할인인자 (δ): 0.50

협력 유지 보수

이탈 후 보수

협력 가능?

할인율 해석

delta = 0.9는 "내일의 1원은 오늘의 0.9원과 같다"는 뜻입니다. 미래를 매우 중시합니다.

delta = 0.1은 "내일의 1원은 오늘의 0.1원과 같다"는 뜻입니다. 현재만 중시합니다.

어떤 상황에서 delta가 낮아질까요? (힌트: 재만남 확률이 낮을 때)

5. 민간정리(Folk Theorem)

민간정리란?

민간정리(Folk Theorem): 무한 반복 게임에서 할인인자가 충분히 크면, 1회 게임의 내쉬 균형보다 양쪽 모두 좋은 어떤 결과든 반복 게임의 내쉬 균형으로 지탱할 수 있다.

쉽게 말해: "충분히 인내심이 있으면, 협력적인 거의 모든 결과가 가능하다."

아래에서 목표 보수를 설정하고, 그것이 반복 게임의 균형으로 유지될 수 있는지 확인하세요.

목표 보수 (A, B): A = B =

민간정리의 의미

민간정리가 말하는 것은 "협력은 가능하다"이지 "협력이 반드시 일어난다"가 아닙니다.

어떤 결과가 실제로 일어나는지는 문화, 제도, 역사에 달려 있습니다.

30장 정리: 반복이 협력을 낳는다

반복 게임에서는 미래의 그림자가 현재의 행동을 바꿉니다. 팃포탯처럼 "착하고, 보복적이고, 관대한" 전략이 장기적으로 성공합니다.

다음 장에서는 게임이론의 응용 중 하나인 경매와 메커니즘 설계를 다룹니다. 게임의 "규칙 자체를 설계"하는 방법을 배웁니다.

← 경제학 목차로 돌아가기