囚人のジレンマとは
ゲーム理論でよく知られる非協力ゲームの一例で、プレイヤーが自分にとって合理的な選択をすると、結果的に全体が非効率になることを象徴的に示しています。
これではよくわからないと思うので実際に見てみましょう。
基本的なシナリオ
- 2 人の容疑者(囚人 A・B)が別々に取り調べを受ける。
- 互いに相談できない。
- 行動の選択肢は 2 つ
- 黙秘(協力)
- 自白(裏切り)
囚人のジレンマのマトリックス
囚人 B: 黙秘 | 囚人 B: 自白 | |
囚人 A: 黙秘 | A = 1 年B = 1 年 | A = 3 年B = 0 年 |
囚人 A: 自白 | A = 0 年B = 3 年 | A = 2 年B = 2 年 |
- 合理的な選択(ナッシュ均衡): 両者とも自白 → 2 年+2 年
- 全体最適(パレート最適): 両者とも黙秘 → 1 年+1 年
- ジレンマ: 個人最適(自白)が集合最適(黙秘)と衝突する。
※この「合理的」とは 自分の刑期短縮だけ を目的に行動すると仮定。
※今ゲームは囚人同士がコミュニケーション不可・一度きりのゲーム。
※これらの前提がが変わると結論も変わり得る。
もう少し日常的な例にしてみると例えば、ルームメイトとの食器洗い
ルームメイトB:洗わない | ルームメイトB:洗う | |
あなたA:洗わない | 台所が放置される → 翌朝2人とも不快(最悪) | Aは楽/Bだけ洗う |
あなたA:洗う | Aだけ洗う/Bは楽 | 手分けしてすぐ終了 → 2人とも快適(最良) |
繰り返し囚人のジレンマと戦略
「繰り返し」だと協力しやすい⁈
同じ相手とまた会う と分かっていれば、「今回は協力しておいた方が後で得だ」と考えやすくなる。
未来で仕返し(報復)されるリスクが裏切りを抑える。
実際の戦略例
- しっぺ返し(Tit‑for‑Tat)戦略
「最初は協力し、その後は前回の相手の行動をそのまま真似する」というシンプルなルールです。
相手が協力すればこちらも協力を続け、裏切られたら1回だけ裏切り返します。
でも、その後に相手が協力に戻れば、こちらもすぐに協力を再開します。
つまり、優しいけれど甘くない、そして許すこともできる戦略。
この「やられたらやり返すけど、水に流す」バランスの良さが、協力を安定させる理由です。
- グリム・トリガー戦略
「一度でも裏切られたら、もう二度と協力しない」という非常に厳しい戦略です。
最初は協力しますが、相手が裏切った瞬間から永久に裏切り返すようになります。
そのため、相手がうっかりミスしただけでも協力関係が完全に壊れるリスクが高く、
現実ではノイズや誤解に弱く、協力が崩壊しやすいという欠点があります。
簡単に言えば:
「たった一度の裏切りで、すべてを終わらせる冷酷戦略」です。
- シャドー・オブ・ザ・フューチャー
「将来も関係が続くと思えば、協力する方が得になる」という考え方です。人はふつう、将来の利益を今より軽く見ます(これを割引と呼ぶ)。
でも、割引率が小さい=将来の価値を重く見る人は、
「今裏切って得するより、協力を続けて長く得した方がいい」と考え、協力を選びやすくなります。
つまり、未来を重視する人どうしなら協力が成り立つというのが、この理論の要点です。
実験
- ロバート・アクセルロッド(1980 年代)の大会で Tit‑for‑Tat が優勝。
1980年代に政治学者ロバート・アクセルロッドが開いた「囚人のジレンマ・プログラム大会」では、最初に協力し次からは相手の前回行動を真似るだけの極めてシンプルな戦略「Tit‑for‑Tat」が、第1回でも第2回でも1位になりました。
理由は①先に裏切らないので友好関係を築ける、②裏切りには即報復して悪用を防ぐ、③相手が協力に戻ればすぐ許す――という“親切・報復・寛容”のバランスが取れていたためです。この結果は「複雑さよりも、適度な優しさと報復、そして許しが協力を進化させる」という教訓はいまだに引き継がれています。