しっぺ返し 戦略。 囚人のジレンマ

医師の仕事にも応用が可能な、囚人のジレンマ&しっぺ返し戦略。

しっぺ返し 戦略

はたして「協調」と「裏切り」のうち、 どちらのほうがより優れているのでしょうか。 そこである人が「コンピュータ選手権」をやろうと考えました。 ロバート・アクセルロッドという政治学者でした。 優勝したプログラムは、 心理学者のアナトール・ラポポートという人がつくったものでした。 実はたった「4行」のプログラム言語で書かれていました。 あまりに短くて、コンテストに参加したプログラムのうちで最短でした。 たった「4行」のプログラムが、他の14通りのプログラムに勝ってしまったのは衝撃でした。 このプログラムは「しっぺ返し」という戦略をとっていました。 なぜ4行で書けたかというと、こんなに簡単だったからです。 この戦略は、相手の「物まね」を行うだけです。 このようにふるまいますと、 相手が協調なら協調し、裏切りなら裏切りで応えるという戦い方になります。 1回目は協調にしますが、 後は直前の相手の手を1回ずらして真似ているだけです。 さらに、最も特徴的だったのが、 「しっぺ返し」は、どのプログラムにも勝ちませんでした。 どの対戦相手にも、負けるか、あいこに過ぎなかったのです。 勝たなかったが、負けたときに失点が少なかったということです。 要するに「ミニマックス型」の戦略だっというわけです。 「しっぺ返し」戦略は、とりあえず「協調」します、 そして裏切られたら、即座に裏切り返します。 それが最善策です。 実社会でいうと、長く付き合いながら、ともかく「協調」を基本姿勢とすることです。 間髪をおいてはいけません。 相手が忘れないうちに、即座にしっぺ返しをするのが基本です。 「しっぺ返し」は誰にも勝ちません。 よくて引き分けです。 負けることも非常に多いです。 しかし長い目で見ると、そんな戦い方をする人が最高の勝者になるのです。 逆に、最高の勝者に勝っている人が、長い間に最下位グループに入ってしまったりします。 「強い相手に勝つけれども、総合点では負ける」という人たちです。 「しっぺ返し」は普段は協調し続けるという、非常に退屈な作業ですが、それが「最良」なのです。 「誰にも勝たないのに、総合すると最高の勝者である」というのは恐るべき高等戦略です。 ほとんどの人は、その屈辱的状態にがまんならないのではないでしょうか。 いずれにしても、「協調」が「囚人のジレンマ」における基本の立場です。 それを忘れてはなりません。 また、裏切られたら裏切り返して、相手に裏切りのリスクを教え込まなければなりません。 けっして逆襲しない「無抵抗主義」では、最弱の弱者に追いやられてしまいます。 この戦略、ただやられたらやり返すだけの、一見するとくだらなく、なんだか幼い作戦だが、勝率はかなり高く、男女間や友人とのやりとりだけではなく、価格競争、企業取引、株投資に外交など、幅広く使われている。

次の

アクセルロッドのしっぺ返し戦略批判

しっぺ返し 戦略

世の中の悩みの大半は人間関係にまつわることではないでしょうか。 例えば友人との関係、恋人との関係、同僚との関係、クライアントとの関係、近隣の同業者との関係など生きている限り悩みは尽きません。 協力すべきなのか裏切るべきなのか人間関係で悩む度に考えなければならないのは大変です。 そんな時には一貫したルールを設けておくと日々、人間関係に悩んでも自分がどう対応するべきかをシンプルに決められるようになります。 有名な処世術の一つに経済学のゲーム理論から生まれた「しっぺ返し戦略」があります。 「しっぺ返し戦略」はどんな場面でも必ずしも有効な手立てではありません。 しかし「しっぺ返し戦略」の事例を通して分かることは長期的な人間関係を築く時は、結局のところ信頼を築いていくために誠実であることの大切さです。 しっぺ返し戦略を通して長い目で見たら人間は誠実であることが結局はうまくいきます。 しっぺ返し戦略とは しっぺ返し戦略はいたってシンプルです。 最初は協力する• それ以降は相手が協力してくれたら協力し裏切られたら裏切り返す• 相手が協調的な態度をとった場合は寛容な態度で協調する という戦略です。 人間関係で相手がいるときに協力的に接するべきか報復するべきか悩むことがあります。 相手に攻撃され続けても延々と相手のいいなりになる続ける対応もあれば、先に攻撃的な態度をとる、気まぐれにランダムな対応をする、攻撃的な態度をとられたら倍返しにするなど様々な対応方法が考えられます。 政治学者のロバート・アクセルロッドは「しっぺ返し戦略」が長期的に見ると人間関係の駆け引きにおいて有効な戦略だと言います。 協調と裏切りのゲーム「囚人のジレンマ」 しっぺ返し戦略のようなシンプルな戦略が本当に効果があるのでしょうか。 しっぺ返し戦略が有効かどうかを確かめるための根拠になっているのが「囚人のジレンマ」というゲーム理論です。 例えば、あなたと友人が銀行強盗をして捕まったとします。 そして警察に2人別々の部屋で尋問を受けました。 そして警察から尋問を受けた際に取引を持ちかけられます。 友人が首謀者で、あなたに不利な証言をしなければ友人は5年の刑であなたは釈放される• あなたが友人に不利な証言をせず、友人があなたに不利な証言をすれば、あなたは5年の刑で 友人は釈放される• 双方が互いに不利な証言をすれば、二人とも3年の刑になる• 双方が証言を拒否すれば二人とも1年の刑になる このケースでは友人があなたに不利な証言をせずに自分だけが友人を裏切ることが仮にできれば釈放されます。 しかし友人も同じ取引を持ちかけられていることを忘れてはいけません。 この時にあなたも友人もすぐに釈放されたいがために相手が首謀者だと言い合えば二人とも3年の刑になってしまいます。 そして自分だけが友人を信頼し証言を拒否したのに友人が、あなたに不利な証言をした場合は、あなただけが5年服役しなければなりません。 あなたならどうするでしょうか。 私だったら次のように考えます。 友人に不利な証言をせずに友人も自分に不利な証言をしなければ1年の刑期で済む。 しかし万一、向こうに裏切られたら5年も服役しなければならない。 本当に友人は信用できるのだろうか。 むしろ友人は自分を警察に売って自分だけが5年の刑に服役する可能性がある。 それなら友人に不利な証言をしておいて友人が首謀者であると認めてくれる可能性にかけるか、最悪5年の刑期を避けるために相手に不利な証言をしておこう・・・。 しかし友人もリスクを回避するために同じことを考えるでしょう。 結局、お互いがリスクを回避しようとすると二人とも不利な証言をして3年の刑になります。 実はこれが1回限りのゲームだった場合はお互いが信用できないならばリスク回避のために相手を「売る」のは間違った選択肢ではありません。 しかし、このゲームが20回、30回と継続する場合は話が変わってくるのです。 「囚人のジレンマ」で最も得点をあげたしっぺ返し戦略 結論から言うと継続的な「囚人のジレンマ」のゲームを繰り返すとシンプルな「しっぺ返し戦略」が最も「得」をするという結論に達しました。 一方的に相手を信頼し続ける戦略をとった場合は一方的に自分が不利な「ババ」を引き続けることもあり得点は伸びませんでした。 しかし相手を裏切り続ける戦略を取り続けた場合は最初は「得」をするのですが回数を重ねるごとに点数をあげられなくなっていくのです。 様々なパターンで、この囚人のジレンマの総当たり戦をリーグ形式でしたところ「しっぺ返し戦略」が総合得点でトップとなりました。 しっぺ返し戦略にみる社会現象 しっぺ返し戦略の事例は世の中の多くの場面で多く見られます。 国際関係からアメリカの銃社会、家電量販店の価格競争にまでしっぺ返し戦略で均衡を保っている事例は珍しくありません。 集団的自衛権としっぺ返し戦略 実は日本の集団的自衛権はゲーム理論的に見ると「しっぺ返し戦略」に基づいています。 日本の国防の基本スタンスが実は「しっぺ返し戦略」だと聞くとピンとこない方もいるかもしれません。 平和主義である=協調戦略• 武力攻撃を受けた場合は集団的自衛権を行使し徹底反撃する=やられたら報復するしっぺ返し• 相手が撤退したら、それ以上の攻撃を止め平和条約を締結する=協調戦略 基本的には協調戦略をとるがやられたら報復する、その代わり協調姿勢を見せてきたら協調するというスタンスは実はゲーム理論の「しっぺ返し戦略」に当てはまっています。 もしも自衛隊が軍備を完全に放棄した場合はゲーム理論的にみれば報復手段を失い一方的な協調戦略のみしか取れなくなります。 銃社会アメリカで何故、銃がなくならないのか アメリカでは度々、銃社会であるが故の誤発砲などの事件がニュースになっています。 社会に銃が存在しなければ銃による誤発砲などの事件は起きません。 しかしアメリカでは既に銃が社会的に浸透しています。 アメリカの大地は広大で開拓時代のアメリカでは保安官による治安維持が行き届いていませんでした。 そのため自分の財産や家族は自分自身で守らなければならないという事情が歴史的背景としてありました。 日本が豊臣秀吉の時代に刀狩を行い庶民が刀を持てなくしたことで武器を持つ文化が衰退したのとは対照的です。 アメリカ人も日本の自衛隊と同じように銃を持つのが一般的な社会である以上、ゲーム理論的には使うことを望む望まないに関わらず「しっぺ返し戦略」をする場合は銃による自衛ができなければ一方的に協調することしかできなくなります。 アメリカ人も自分だけが銃を持っていないとなると自分の財産や家族を守れなくなるのではないかと感じてしまう人もでてきます。 家電量販店の値引き争い 家電量販店の値引き合戦でも「しっぺ返し戦略」が見られます。 よく家電量販店に行くと次のような文言を見かけることが多いのではないでしょうか。 「他社より1年でも高い場合はお値引きします」 消費者から見ると、この量販店は最安値を保証してくれて親切だなと思うかもしれません。 しかし家電量販店の価格調査部隊からみると「しっぺ返し戦略」をとられているように見えるのです。 「もしも値引きしたら、こちらも値引きで対抗する」 「値引きしなければ、こちらも値引きしない」 家電量販店の価格調査部隊からみると、値引きで出し抜こうとしたら報復されてしまうと解釈するのではないでしょうか。 一方で協調すればライバル店同士、泥沼の値下げ合戦をせずにすみます。 実はこんな身近なところにも「しっぺ返し戦略」が活用されているのです。 短期的には利己主義が有利 「しっぺ返し戦略」を日常生活に応用する場合に注意する点は短期的には利己主義が有利である点です。 言い換えると短期的には嫌なやつがうまくいくことが多いのです。 例えば会社の中で実務に力を入れている人と上司へのゴマすりに力を入れている人では後者の方が高い勤務評価を受けることがスタンフォード大学のビジネススクールのジェフリー・フェファーによると実証されています。 また海外旅行では一期一会の安宿やドミトリーでは荷物の管理や貴重品が無くなります。 治安の悪い国では外国人は窃盗の被害にもあいやすい。 外国人のスリやひったくりにとって一時的な滞在の観光客は格好のカモです。 帰国せざるを得ない観光客は今後スリやひったくり犯にとって関わることのない人なので同国人や近所の人を狙うよりターゲットにしやすいのです。 隙あらば盗もうと考える不届き者がいても不思議ではありません。 そのためスリやひったくりが多いとされる観光地では旅行者は注意が必要です。 長期で関係が続くなら信頼関係を築く方が良い 利己主義が短期的に得をすることが多いなら、みんな利己主義者になれば良いのでしょうか。 そうなると我も我もと利己主義が幅をきかせるようになります。 例えば会社で実務を疎かににして上司にゴマばかりをする人が増えてしまった場合、長期的にみると多数の人が実務を放って上司の機嫌とりにエネルギーを費やすようになります。 すると社内やチーム全体の生産性が落ちていき集団そのものの利益をあげる力がなくなります。 またお互いが協力できない環境が醸成されていき社内・チームそのものが腐敗していくことになります。 安宿のドミトリーの従業員や経営者が一期一会の客から物品を盗むようなことを継続的にすれば短期的には得をするかもしれません。 しかし長期的にみるとドミトリーで盗みが相次いでいることがドミトリーそのものの評価を下げる原因になり客がこなくなり最後には潰れます。 特にオンライン旅行サイトで最近は評判が外の世界に可視化されやすい時代です。 東南アジアではやっている配車アプリのGrabTaxiでも評判が可視化される仕組みがとられています。 短期的にインチキをしてなれない観光客からぼったくり料金をとって得していたとしても長期的には悪い評価がつけられていき警戒されるようになりボッタクリドライバーは儲けられなくなります。 そこでGrabTaxiの仕組みをとらずに個人経営をボッタクリのドライバーがしようとしますが、多くの観光客はボッタクリを警戒しGrabTaxiを利用するのが一般的になります。 GrabTaxiは東南アジアのタクシー業界の信頼の可視化を実現したのが画期的です。 長期でみると利己主義者は損をする時代になってきています。 特に評判が可視化されやすいSNSの時代では短期的な利己主義は長い目でみて損をしやすくなっているのではないでしょうか。 囚人のジレンマから学ぶ人間関係のコツ 囚人のジレンマでは短期的に見ると不誠実な利己主義者が得をするのですが長期的に見ると信頼関係を築き、万一、利己主義に攻撃を受けたり裏切られてたりする際は同程度の報復をすることが有効ということになります。 しっぺ返し戦略の有効性を証明したアクセル・ロッドは人間関係のコツを4つにまとめています。 相手を妬まない しっぺ返し戦略では、一つ一つのケースでは相手に勝つ訳ではありません。 むしろゼロサムゲームでは相手を負かすことがほとんどできません。 しかし、続けていくことで得点の総和が伸びていくのが特徴です。 一回一回の取引や対応で相手を妬まずに自分が利己的でないかどうかだけを気にしていれば良いことになります。 自分から先に裏切らない 他者から好意を受けるためには受身の姿勢ではなく主体的に自分から行動することも大切です。 ネット上ではよくGiveすることからはじめるべきだという話を聞くようになりましたが先に、Giveすることでより良い関係を築きやすくなります。 長期的な利益を犠牲にして目先の利益を手に入れようとする態度は長期的には信頼関係を築けずに損をするようになります。 特に現代社会はSNSなどで繋がっていることも多いため利己的なテイカーは損をしやすい時代ではないでしょうか。 そっくり相手に返す 一方的に従い続けると搾取されるだけ、利用されるだけになってしまいます。 そのため、もしも攻撃を受けたらその分、しっかりと報復することでバランスがとれます。 言われっぱなし、やられっぱなしでは自分を守ることはできません。 策を弄さない ずる賢い立ち回りは相手に不信感を与えます。 そのためシンプルに行動することで信頼関係を得やすくなります。 将棋やチェスのようなゼロサムゲームでは意図を読み取らせないことも重要ですが現実世界では策を弄することで、信頼関係を得にくくなります。 まとめ しっぺ返し戦略と囚人のジレンマの事例は実際の人間関係を考えるうえで大いに参考になります。 人の悩みのほとんどは人間関係から発生する者です。 だからこそシンプルで明快な、しっぺ返し戦略は人間関係で迷った時の指針としやすいのではないでしょうか。 特にSNSなどで評判が可視化されやすい時代では短期的な利己主義は長期的な損に繋がりやすくなります。 しっかりと守るべきところを守りつつ信頼関係を築くのが長い目でみると良さそうです。

次の

アクセルロッドのしっぺ返し戦略批判

しっぺ返し 戦略

、 c アクセルロッド『対立と協調の科学』書評:「しっぺ返し」はそんなにすごいものではありません ELSE, Economics Department, University College London. 1998, JASSS vol 1, no 1. 要約:ゲーム理論の偉い人、ビンモアによるアクセルロッド&「しっぺ返し戦略」称揚に対する強い批判。 アクセルロッドは前著『つきあい方の科学』で反復型囚人のジレンマゲームのコンテストを開催し、ラポポートの「しっぺ返し」戦略がもっとも有力だった(そしてそれを進化型ゲームに適用しても有力だった)ということを根拠に、しっぺ返しがあらゆる協力の発生と成長の根幹となる原理だ、といわんばかりの主張を行い、それが一人歩きしている。 でもこれが成功するのはごく一部の状況で、安易に一般化できるものではない。 またこれはアクセルロッド/ラポポートよりはるか以前にゲーム理論で示されていることでしかない。 さらにアクセルロッドはコンピュータシミュレーションばかりにこだわり、ゲーム理論からの指摘に一切耳を傾けていない。 『』はそうした欠点のため、きわめて不満の多い不十分なものとなっている。 ロバート・アクセルロッドの近著『』 ダイヤモンド社、原著 Complexity of Cooperation は、名高い『』(ミネルヴァ社、原著 Evolution of Cooperation の続編にあたる。 この新著ではこの問題に関するかれの 1984 年以来の論文の更新版が採録され、それの背景を説明したコメントがつけられている。 アクセルロッドが『』で「しっぺ返し TIT-FOR-TAT 」戦略を絶賛したために、当人すら夢にも思わなかったほどの成果をアクセルロッドの手柄だとする偶像崇拝者から、かれの成果をただの大風呂敷として一蹴する懐疑論者まで、すさまじい幅の文献が出現することとなった。 前者の例は Watson 著 , p. 182 Dark Natureに登場する: 1997 年にアクセルロッドがそれ(しっぺ返し戦略)を発見し、少なくともわれわれの知る限り、この戦略だけが安定で、競合プログラムのあらゆる侵略に抵抗できるものである。 そしてこれはきわめて重要な発見だった(後略) こうした科学解説者からの英雄崇拝に対して、経済学者やゲーム理論家からの苦々しげな言及も比較するべきだろう。 たとえば Martinez-Coll と Hirshleifer はこう述べる: 反復囚人のジレンマ状況における進化的競争に関するアクセルロッドの研究を主要因として、かなりとんでもない主張が広く受け入れられるようになっている。 すなわち、通称「しっぺ返し」と呼ばれる単純な猿まね行動 reciprocity behaviour は、アクセルロッドがシミュレーションでモデル化した特定の環境のみならず、きわめて一般的な環境においても最適な戦略である、という主張だ。 あるいはもっと大風呂敷になると、このしっぺ返しは人々の間の複雑な社会的やりとりにおける協力の基盤を作るものであり、生命すべてにおける社会的協力の発展を説明できるのだ、ということになる。 アクセルロッドの業績に関するこの驚くべき評価の幅の中で、真相はどこに位置するのだろうか? ゲーム理論家であるわたしがどこに共感するかは、すぐに見当がつくだろう。 『対立と協調の科学』のカバーで、アクセルロッドがゲーム理論で画期的な業績を挙げたと書かれているのを見るのは、確かにとてもいらだつものだ。 その業績というのは通常は、一部の無限反復ゲームにおいては完全な協力が維持可能だという事実をかれが再発見した、ということを指す。 でもこの事実は、アクセルロッドがこの問題について執筆を始める四半世紀以上も前からよく知られていることだった。 五〇年代初期に、何人かの著者が同時に証明したゲーム理論の「フォーク定理」は、まさにこの事実を示すだけでなく、均衡として維持可能な反復ゲームの あらゆる結果を厳密に記述している。 でもアクセルロッドはフォーク定理を発見はしなかったにしても、かれがゲーム理論に重要な貢献をしたのは確かだと思う。 ただしそれは、しっぺ返し戦略そのものとも、無限反復囚人のジレンマにおける他のあらゆる均衡を 維持するメカニズムとも関係ない。 かれの貢献は、フォーク定理が存在を実証している無限の均衡可能性の中から、ある特定の均衡を 選ぶのが重要だと言うことに目を向けてくれたことにある。 他のゲーム理論家たちは、この貢献をした時点でゲーム理論についてまったく知らず、そして未だに自分の成果に対するゲーム理論的なコメントを意図的に無視し続けている人物を、このように認知するということ自体に抗議するかもしれない。 だがアクセルロッドが先駆となった進化的な発想が、いまやゲーム理論の均衡選択問題における標準的なアプローチを提供しているということは否定しがたい。 だが、アクセルロッドを進化的均衡選択の先駆者として認知することは、かれのしっぺ返し戦略についての主張を肯定するものではなく、またややこしいコンピュータシミュレーションに頼る前に理論で何が言えるか見ようとしないかれの態度を承認するものでもないということは、ここであらためてこだわっておく。 拙著 Playing Fair は「しっぺ返し」バブルを詳しく論じている , p. 194。 まとめると、アクセルロッドは各種の社会科学者に声をかけて、無限反復囚人のジレンマでの総当たり戦の競技会に出場するため、コンピュータプログラムを提出するよう依頼したのだった。 予備戦の結果を知らされた上で、出場者たちはゲームで可能な93の戦略のどれかを実装したコンピュータプログラムを提出した。 たとえばしっぺ返しを提出したのは心理学者アナトール・ラポポートで、かれは一回限りの囚人のジレンマでは協力が合理的だと実証するものだと主張する「Symmetry Fallacy」の発明者だ。 協力からの裏切りすべてに対し、その後ずっと非協力となることで罰する GRIM 戦略を提出したのは経済学者のジェームズ・フリードマンだった、等々。 競技会では、しっぺ返しが一番成績の高い戦略だった。 アクセルロッドはその後、ある世代で高い見返りを実現した戦略が、次の世代では数が増えるようにする更新ルールを使って、競技会に提出された 63 戦略に対して進化の影響が作用するようにした。 進化シミュレーションの最後で、生き残ったプログラムの中でもっとも数が多かったのがしっぺ返しだったという事実でアクセルロッドは問題が片付いたと考え、きわめて広い状況における人間の協力についても、しっぺ返しが適切なパラダイムだと提案するに至った。 しっぺ返しの美徳をアクセルロッドはこのように表現している , p. 54 : しっぺ返しの堅牢な成功の理由は、善良で、報復的で、相手を許し、明快であるということの組み合わせからきている。 善良なので、無用なもめごとに巻き込まれずにすむ。 報復性のおかげで、相手は裏切ったときに、それを続けようとは思いにくい。 相手を許すから相互協力の再構築に役立つ。 そして明快さは、意図が相手に読みやすいということなので、長期的な協力も引き出しやすい。 こうした主張はどこまで正当化できるだろうか? よく調べると、しっぺ返しはアクセルロッドのシミュレーションで、それほど成功していなかったことがわかる。 また、それがたまに成功するときでも、最初の個体数の分布を変えるとその結果はあまり堅牢ではない。 いったん裏切った相手を許さない GRIM は、最初の個体群分布が、最大で 2 つの状態を持つ 26 の有限オートマトンすべてで構成されている場合にはきわめて強力だ。 また、もし収奪する価値のある少数のカモが絶えず系の中に流入してくるような状況であれば、自分からは決して裏切らないような善良なマシンを進化が生み出すなどと期待してはいけない。 そして明快さについていえば、協力が進化するためには、ミュータントが自分自身の複製を認識できさえすればすんでしまう。 するとアクセルロッドの一覧で残るものといえば、成功する戦略は報復性がなくてはならないということだけだ。 でもこの教訓が成り立つのは、 一対一のやりとりだけだ。 多者のやりとりでは、ずるいことをした参加者を罰するのは、被害を受けた参加者である必要はない。 こうした反証を裏付ける前に、ナクバー Nachbar, のもっと厳しい批判を取り上げておく必要がある。 その批判とは、アクセルロッドがまちがって、 有限反復型の囚人のジレンマ進化シミュレーションを走らせてしまった、というものだ。 有限反復囚人のジレンマにおけるナッシュ均衡の利用は必然的に、双方のプレーヤーが必ず裏切る結果になるので、参加者の個体分布の中に あらゆる戦略が存在していたら何が生き残るかを知るのにコンピュータシミュレーションを走らせる必要などない。 勝つ戦略は 決して協力しない。 ナクバーは、アクセルロッドが進化シミュレーションを走らせるときに、うっかり有限反復型囚人のジレンマで実行してしまったという点では正しい , p. 199。 この事実は、根底にある理論を知らずに実行されるコンピュータシミュレーションの潜在的な信頼性についての教訓を与えてくれるものだが、必ずしもアクセルロッドの結論を否定するものではない。 というのも、実際に提出された 63 の参加プログラムは、どれ一つとして有限反復ゲームの末尾で起こる効果を利用するようにはプログラミングされていなかったからだ。 実はリンスター Linster, , は、この有限反復型の囚人のジレンマを無限反復版で置き換えてやりなおしたが、出てきた結果はアクセルロッドのものとかなり近かった。 だが一般に流布している見解とはうらはらに、その結果というのはしっぺ返し戦略だけが生き残るというものではない。 最後にはいろいろな戦略の混合物が残る。 すると生き残りの中でしっぺ返し戦略がいちばん多いというのはどこまで重要なんだろうか? 理論を見ると、この問題に答える一助となる。 リンスターのシミュレーションは、競技会に提出された63 種類の純粋戦略で構成される、63 x 63 マトリックスのナッシュ均衡にしか収斂できない。 でも、63x63 のゲームを、好き勝手な安定均衡の basin of attraction で始めることで、結果として出てくるナッシュ均衡も様々となる。 アクセルロッドは六種類の初期条件を試して、そのうち 5 種類についてはしっぺ返し戦略がいちばん数が多かったと述べている。 でも、アクセルロッドの63戦略に限る必要もないだろう。 でも、GRIM は相手を許す戦略ではない。 むしろその GRIM 陰々滅々 という名前は、あらゆる裏切りを永遠に容赦なく罰し続けるところからきているのだ。 アクセルロッドがしっぺ返し戦略について述べる善良さの持つ進化的な意義を評価するには、突然変異と性的変異というノイズの多いプロセスをまねするシミュレーションに目を向けることが必要となる。 革新的な論文 Axelrod, , で、アクセルロッドはホランドの遺伝的アルゴリズム Holland, , をこのために使っている(アクセルロッドは、こうした「進化的」シミュレーションと区別するため、初期の決定論的なシミュレーションを「生態的」と呼んでいる)。 アクセルロッドの先駆研究は、50世代しかないシミュレーションを40種類やったにとどまるが、プロボスト Probst, は後にこれを徹底して進め、大量のシミュレーションを長期にわたって走らせて、それをしばる複雑性の制約をつけなかった。 『対立と協調の科学』に再録改訂された論文の最初のもの Axelrod, で、アクセルロッドは意地悪なマシンが栄えている例は40 シミュレーション中の 11 件しかなかったという結果を出している。 だがプロボストの結果を見ると、これがしっぺ返しのようなナイーブな猿まね戦略に最終的に取って代わられる前の一時的な増加だとして一蹴するアクセルロッドはまちがっていたことがわかる。 それどころか、一時的にすぎないのは、しっぺ返しのようなナイーブな猿まね屋の初期の成功なのだった。 長期的には、意地悪なマシンが勝つ。 アクセルロッドによる、進化は無限反復囚人のジレンマにおいて、最終的には善良なマシンを生み出すはずだというアクセルロッドの主張 Axelrod, は、実はまちがっていたことになる。 ビンモア Binmore, , p. 202 は、プロボストがバーゼルで修士論文用に走らせた元のシミュレーションについて書いている。 かれが博士論文用に行ったその後の研究は近刊である ,。 二相有限オートマトンである TAT-FOR-TIT は、プロボストのシミュレーションから生じる意地悪な戦略としては、もっとも単純なものだ。 この戦略は、まずは裏切り、相手も裏切るまでは裏切り続ける。 相手が裏切ったら、この戦略は協力状態に切り替える。 そして相手が裏切るまでは協力を続け、相手が裏切ったところでゲームはじめの裏切り状態に復帰する。 つまり TAT-FOR-TIT を使うプレーヤーは、まず相手を収奪しようとし、自分と同じ形であいても自分を収奪しようと思っていることがわかったときに、初めて協力を開始する。 TAT-FOR-TIT 戦略を初めて記述したのはラポポート&チャマー Rapoport and Chammah, だった。 それは囚人のジレンマに関する初期の本の中で、偏見の強い SIMPLETON 単細胞バカ なる名称をつけられていた。 プロボストと似たような結論は、生物学者のノワクとシグムンド Nowak and Sigmund, , , , , も述べているが、そこで使われているシミュレーションはプロボストほど確定的ではない。 かれらは TAT-FOR-TIT を PAVLOV と名付けている。 勝ったときには同じ状態にとどまるが、負けたら状態を変えるからだ。 わたしは、バンクスとスンダラムの論文 Banks and Sundaram, が使った初期の用語にこだわりたい。 この論文は理論的なツールを使って、進化分析に複雑性の考慮を導入したら、意地悪なマシンを含まないあらゆる均衡の混合は不安定になってしまうことを示した。 なぜその用語にこだわるかというと、TAT-FOR-TITという名称は、オープニング段階におけるシグナリングの役割が重要であることを認識しているからだ。 その段階では、意地悪なマシン同士は(いずれ協力するようになるが)相手が収奪可能かもしれないという可能性を探索する。 この点については Abreu and Rubinstein が詳細に論じている。 アクセルロッドの新刊『』 , p. 21 は、いま挙げたようなゲーム理論家からの広範な批判を無視しつつ、無限反復囚人のジレンマにおける成功する戦略の本質的要素をすべて、しっぺ返し戦略が内包しているのだという当初の主張を繰り返し続ける。 だが、進化がときには意地悪なマシンをひいきにするというアクセルロッド自身の発見はどうなった? アクセルロッドは、意地悪なな心が栄えたのは単に、それがカモを収奪できたからにすぎないと論じる。 シミュレーションをもっと長く続けたら、当初は栄えた意地悪なマシンも、成功の鍵となるカモが排除されてしまうので、やがて脇に押しやられてしまうのだとかれは述べる。 この議論の背後にある直感は、当初はそのしっぺ返し戦略といっしょにいるのが、常に協力か常に裏切るという戦略だけであるなら、確かに成立する。 ただしそれは、そこに新しい戦略が入ってこないという条件がつく。 常に協力するという戦略が当初は支配的なら、常に裏切るという戦略は、最初は大成功を収めるが、かれらが餌食にしている無条件の協力者たちがだんだん減るにつれて、常時裏切り者もどんどん減る。 だがこの例から生じる直感は、無条件の裏切り者を TAT-FOR-TITに置き換えた場合には成立しないのだ。 この系を、適切な basin of attraction から始めると、最終的な個体群はTAT-FOR-TITだけになる。 系を二つの basins of attraction のもう一つから始めれば、確かに TAT-FOR-TIT はいなくなるが、それに注目させたところで、もう一つの basin of attraction がなくなるわけじゃない。 この点を強調したいのは、『対立と協調の科学』再録の二本目の論文で、ウーとアクセルロッド Wu and Axelrod, , が似たようなレトリック上のごまかしを使い、ノワクとシグムンドが PAVLOV について行った議論を一見すると反駁しているように見えるからだ。 かれらはアクセルロッドの当初の「生態的」なシミュレーションに、TAT-FOR-TIT とその他三つの戦略を加えてみせる。 この変更は、TAT-FOR-TIT を含む均衡混合の basin of attraction へと系をシフトさせるには不十分だったそうだが、それが何か? しっぺ返しバブルがしつこく続いているのは、ゲーム理論家にとっては謎だ。 なぜ科学ライターはいまだにしっぺ返しを、人間の協力に関するパラダイムとして使い続けるのだろう? リドレー Ridley, のような著者は、ここでサーベイしたようなアクセルロッドの研究に対する批判を知っている。 理解できないのだろうか? ときには、しっぺ返し TIT-FOR-TAT は、それが通常の英語における「tit for tat」と同義だという誤解にもとづいてはびこっている。 そして、この慣用句としての利用が、公平性という意味合いを持っているところからさらに混乱が生じている。 たとえばあるジャーナリストが最近語ってくれたところでは、 TIT-FOR-TAT は科学的な事実なのだそうで、なぜかといえばアナグマはお互いの毛繕いについやす時間がきわめて平等だからなのだそうな。 でも、それが TIT-FOR-TAT と何の関係が? 通常の英語でも、tat に続くはずの titというのは、犯罪に見合った 罰という意味なのですが。 こう言ったからといって、tit と tatをマッチングさせるときに、公平性に訴える必要があることを否定するものではない。 それどころか、近刊の拙著 Just Playing は、アダムが公平な取引でズルをしたときに、イブとしての自然な反応というのは、その取引を行う前に適切に成立していた原状を回復するために必要なことを何であれ行うことなのだ、と論じている。 そうなると、プレーヤーが被る損失は、その取引を実施することで受け取ると予想した利得と等しくなる。 そうした利得は、そのときに存在する公平性の基準で計算されているので、イブによる罰則から生じる損失も、同じ基準で計算される。 したがって、tit は tat により公平に決定されることになる。 だがこうした公平性の見当は、アクセルロッドがしっぺ返し TIT-FOR-TAT に勝利の桂冠を与えた競技会 Axelrod, のようなものにはまったく欠如している。 他の通俗作者たちは、進化が必然的に人々を善良にするという発想にあまりに魅惑されすぎて、それを支持するものとして引用される科学的な証拠を検討する必要があるとはまったく思いもつかない。 証拠不足をつきつけられると、かれらは立場をずらして馬脚をあらわしてしまう。 つまりかれらのしっぺ返しに対する熱狂は単に、快適な中流家庭で育った体験に基づくものでしかない。 でもかれらがしっぺ返しを用語するのに使う、中流階級の社会力学に関する各種の事例は、反復型囚人のジレンマとは何の関係もない。 なぜなら反復型囚人のジレンマは、見知らぬ人同士の交渉をモデル化したものだからだ。 中流階級のインサイダー集団の内部で機能する社会契約を理解するには、ブルジョワ家族の子弟は ずっと昔から続く、 マルチプレーヤーのゲームに参加するのだ、ということを忘れてはいけない。 通俗ライターたちが、あやまって「しっぺ返し」戦略に貼るようになったレッテルのもとになる直感をある程度とらえているらしい、もっとも単純なゲームは、オーバーラップ型世代モデルだ。 これはあらゆる時点でプレーヤーが三人生き残っている。 たまに一人のプレーヤーが死ぬが、すぐに新しいプレーヤーに置き換わる。 それぞれの時点で、プレーヤーの二人がランダムに選ばれて、囚人のジレンマゲームを実施し、三人目はそれを見物する。 遙か昔、どういうわけか、それぞれのプレーヤーが必ず協力しなくてはならないという均衡が確立した。 昨日は、そのプレーヤーはアダム、イブ、イカボッドだった。 でもイカボッドはその晩に死んで、かわりにオリーブが出てきた。 オリーブはアダムとマッチングされて囚人のジレンマゲームをする。 なぜアダムは彼女と協力することで善良にふるまうのか? アダムとオリーブだけから成るミニ社会の社会契約基盤となるような意地悪な均衡はたくさんあるのはわかっているのに。 こうした意地悪な均衡の一部では、アダムとオリーブはこの新しい相手が収奪できるカモではないかと探りを入れることが可能になる。 でもこうした均衡は、 イブがいるために不可能だ。 彼女は、意地悪な人物をすべて罰する用意ができているということにより、当初からみんなが善良なふるまいをするよう強制する。 もっと一般化すると、子供たちが中流階級のインサイダー集団内で育つとき、かれらは他のインサイダーを、アウトサイダーには認められないような配慮を持って扱うよう学習する。 それにしたがわないインサイダーたちは、その行動を変えないと、アウトサイダー扱いされることになる。 しかしながら、しっぺ返し TIT-FOR-TAT とのアナロジーはせいぜいがここまでだ。 自然は、中流階級のインサイダー集団の中で機能している甘さと明るさを、世界全体にもたらしていはいない。 強姦や騒乱をもたらそうと暗い脇道にひそむアウトサイダーたちは、善良でもないし、他人を許すつもりもない。 またサメはよどみにしかいないわけではない。 まばゆい会議室にも居座り、権力の回廊をも徘徊している。 こうした上層部のサメたちは、人々の銀行口座をくいものにして、高齢未亡人たちの年金を巻き上げるにあたり見事な歯をむきだしにする。 でも、そいつらがわれわれと同じ善良な人だと偽装すべくこちらに向ける微笑をそのまま返したら、われわれはかれらの思い通りの馬鹿者でしかない。 政治理論家たちは、世界から意地悪さを排除するような理論をでっちあげたときには、ひどいまちがいを犯している。 意地悪さが非合理だというのはひたすらウソだし、進化がやがて意地悪をなくすというのもでたらめだ。 ヒューム Hume, [1758] が警告したように、われわれの憲法はインサイダーのふりをした悪者や詐欺師が、社会契約のウラをかくために開発した現代的手法に対し、防御策をもたなくてはならないのだ。 もっと緊急性が高いのは、相互に敵対する集団同士の紛争を減らすための方法を見つけることだ。 セルビア人とクロアチア人たちは、いずれお互いをアウトサイダーとして扱うのをやめて、再び相互に善良になるよう説得されるだろうか? 北アイルランドや中東には希望があるだろうか? アクセルロッド Axelrod, は、そうした協力の創発について、驚くべき例を一つあげている。 第一次世界大戦では、英軍と独軍との間に、暗黙の野合が何件かたまに発生したことが報告されている。 どちらの軍も、お互いを爆撃するのをやめたというのだ。 アクセルロッド Axelrod, はこのふるまいをtit-for-tat 的な理由づけのおかげだとしている。 でもこの説明は、このプレーヤーたちが最初はお互いに対して善良にはふるまっていなかったという明白な事実を無視している。 相手をアウトサイダーとして扱う集団の間に、そうした協力が生じる仕組みを理解するのはとても重要だということは、私も同意する。 でも、結論があらかじめ決まっているモデルを使って協力の創発を分析しようとしても、意味はないのでは? 以上のしっぺ返しパラダイムに対する批判は、近刊の拙著 Just Playing 第三章からとったものだ。 この章はまた、アクセルロッドがコンピュータシミュレーションだけで述べようとする事柄について、理論を使えば何がいえるかかなり詳しく述べている。 ゲーム理論家にしてみれば、理論から得られる教訓をここまで頑迷に拒否するというのはほとんど犯罪的だ。 ややこしいシミュレーションを走らせて、ゲームの均衡点をいくつか見つけたところで、それが直接簡単に計算できるようなものなら、何の意味があるだろうか? でもこれはシミュレーション技術を使う社会科学者がしばしば犯すまちがいだ。 シミュレーション実施者たちは、自分たちがゲームを検討しているということにすら気がついていない場合が多いし、そのシミュレーション結果がどう転んでもそのゲームの均衡点に収斂する(収斂点があればだが)しかないこともわかっていなかったりする。 ときにはゲーム理論家は、そのシミュレーションが根底にあるゲームの均衡点とはちがうところに収斂しているのを見て、そのシミュレーションが絶対にまちがっているのをすぐに見抜くこともある。 でもそれを指摘したところで、結果を見直そうとするシミュレーション実施者にはお目にかかったことがない。 これ以上囚人のジレンマの話をするよりも、『対立と協調の科学』からの三本目の論文「規範の推奨 "Promoting Norms" 」をちょっと見ることで、理論の価値についての私の論点をさらに突き詰めたいと思う。 反復型囚人のジレンマのシミュレーションと同様、アクセルロッド Axelrod, は規範ゲームと称するもののシミュレーションを元に、ご大層な結論を引き出そうとする。 アクセルロッドにはあずかり知らぬことながら、これに関連したゲームはたまたま、経済学や心理学の文献ではすでに悪名高いものとなっているのだ。 その関連したゲームとは、「最後通牒ゲーム」と呼ばれている。 慈善家がアダムとイブに対して、二人でお互いの取り分に合意できたら100ドルあげよう、とアダムとイブに提案する。 交渉ルールとしては、アダムがイブに提案を行い、それをイブは受け入れてもいいし、断ってもいい。 断ったら、どちらも一銭ももらえない。 合理的期待に基づく議論からくる予想では アダムは自分の交渉力を乱用し、100 ドルのほぼ全額を自分の懐に入れるということになる。 イブが金だけを考えるなら、少しでももらえるほうがゼロよりはましだろう、というのがアダムの発想となる。 だから、イブが一セントしかもらえないような提案でも、ことわって何ももらえないよりはましだと考えるはずだから、アダムはそれを提案する。 でも実験してみると、アダムはイブに対して、総額の三分の一以下を提示するのは愚かだということがわかる。 彼女がノーという確率は、そのあたりでちょうど半分になるのだ。 実はプレーヤーが通常合意するのは、アダムに総額の半分よりちょっと多い金額を与える程度の分割となる。 お金をどう分けてもそれは均衡として支持できるので、アダムとイブが最後通牒ゲームで直面する問題は、均衡選択問題だと考えることができる。 かれらの社会でこの問題の解決につかわれる尺度は、つまり社会規範として考えることができる。 ここでいきなりコンピュータシミュレーションに向かうよりも、理論を使って、そうした規範を考案するために進化が直面する問題を検討することができる。 ビンモア、ゲール、サミュエルソン Binmore, Gale and Samuelson, はまず、最後通牒ゲームを単純化したものの検討から始めたが、これはアクセルロッドの規範ゲームの単純版でもある。 利得の具体的な数値はどうでもいいのだが、この慈善家には4ドル出す用意があるとしよう。 そしてアダムは、それぞれ二ドルの山分けを提案することもできるし、自分が三ドルでイブは一ドルだけという分け方を提案してもいいことにする。 さらにイブは、均等な山分け提案は必ず受け入れるものとしよう。 そうすれば、不均等な分け方の場合にのみ専念できる。 こういう状況では一番簡単な進化プロセスをモデル化するために生物学者が使っている、replicator dynamics の convergence properties を分析するのが一番ストレートなやり方だ。 反復型囚人のジレンマの場合と同様、系が収斂する均衡点は、それが出発する basin of attraction に左右される。 時にはその系は、合理的期待の均衡に収斂するし、ときにはそうならない。 だがここで注目すべき重要な点は、この収斂プロセスがまったく堅牢でないということだ。 これは動的プロセスの実に小さな乱れによって、攪乱されたりすさまじく遅くなってしまったりする。 ここからいえるのは、コンピュータシミュレーションでの試行数回から得られた結論には、ほとんど依存できないということだ。 どんな結果であれ、まともに受け取るためには、根底にあるパラメータをいろいろ変えて、ものすごい数の堅牢性試験を行う必要がある。 完全な最後通牒ゲームにおける進化を検討するにあたっては、50 万回のシミュレーションが必要だった。 その過程で、小数点以下10桁の制度では不十分で、小数点以下15桁まで使わざるを得なかったのだった。 まとめよう。 アクセルロッドが、規範の進化に関する結論の根拠としたと称するシミュレーションのデータは、嘆かわしいほどに不十分なものだ。 そして、それはかれの規範ゲームなるものが、本当の規範が生じるライフゲームの適切な表象だと考えた場合でもいえる。 根底にある理論をきちんとおさえないと、シミュレーションだけではどう考えてもすまない。 理論を知らないと、シミュレーションの信頼性も評価のしようがないし、したがってそれが示す結論をどのくらい信用していいかもまるでわからない。 『対立と協調の科学』でアクセルロッドが提示する、規範その他についての結論が無価値だ、ということではない。 なんといってもかれは賢い人物で、自分の書いていることについての文献は熟知しているのだから。 でも、かれが自分の発想を指示するために提示するコンピュータシミュレーションからの証拠が、単にレトリック上の価値しかないという結論は逃れようがないと思う。 かれの手法は、探求に値するいくつかの新たな憶測を俎上にあげてくれるかもしれない。 だがこうした憶測を評価するには、根底にある理論をきちんとわかったうえで設計された、適切にコントロールされた堅牢性試験を科学的に実施する以外に方法はないのである。 Ken Binmore は Playing Fair: Game Theory and the Social Contract I, MIT Press の著者です。 続巻 Just Playing も近刊。 参考文献 D. and A. Rubinstein. 1988. The structure of Nash equilibrium in repeated games with finite automata. Econometrica, 56:1259-1282. 1984. The Evolution of Cooperation. Basic Books, New York. 邦訳アクセルロッド『』 ミネルヴァ、1998 R. 1986. An evolutionary approach to norms. American Political Science Review, 80: 1095-1111. 1987. The evolution of strategies in the iterated Prisoners' Dilemma. In L. Davis, editor, Genetic Algorithms and Simulated Annealing. Morgan Kaufmann, Los Altos, CA. 1997. The Complexity of Cooperation. Princeton University Press, Princeton, NJ. 邦訳アクセルロッド『』 ダイヤモンド社, 2003 J. and R. Sundaram. 1990. Repeated games finite automata and complexity. Games and Economic Behavior, 2:97-117. 1994. Playing Fair: Game Theory and the Social Contract I. MIT Press, Cambridge, MA. 1998. Just Playing: Game Theory and the Social Contract II. MIT Press, Cambridge, MA. , J. Gale and L. Samuelson. 1995. Learning to be imperfect: The Ultimatum Game. Games and Economic Behavior, 8:56-90. , R. Schmittberger and B. Schwarze. 1982. An experimental analysis of ultimatum bargaining. Journal of Economic Behavior and Organization, 3:367-388. 1992. Adaptation in Natural and Artificial Systems. University of Michigan Press, Ann Arbor, MI. Second edition, first published 1975. 1992. Genetic algorithms. Scientific American, 267:66-72. 1985. Of the first principles of government. In Essays Moral, Political and Literary, Part I. Liberty Classics, Indianapolis, IN. Edited by E. Miller. Essay first published 1758. 1990. Essays on Co-operation and Competition. PhD thesis, University of Michigan. 1992. Evolutionary stability in the repeated Prisoners' Dilemma played by two-state Moore machines. Southern Economic Journal, 58:880-903. and J. Hirshleifer. 1991. The limits of reciprocity. Rationality and Society, 3:35-64. 1992. Evolution in the finitely repeated Prisoners' Dilemma. Journal of Economic Behavior and Organization, 19:307-326. and K. Sigmund. 1990. The evolution of stochastic strategies in the Prisoners' Dilemma. Acta Applicandae Mathematicae, 20:247-265. and K. Sigmund. 1992. Tit for tat in heterogeneous populations. Nature, 355:250-253. and K. Sigmund. 1993. A strategy of win-shift, lose-stay that outperforms tit-for-tat in the Prisoners' Dilemma game. Nature, 364:56-57. , K. Sigmund and E. El-Sedy. 1993. Automata, repeated games and noise. Technical report, Department of Zoology, Oxford University. and D. Probst. 1998. Evolution, automata and the repeated Prisoners' Dilemma. Forthcoming in Rationality and Society. 1996. On Evolution and Learning in Games. PhD thesis, University of Bonn. and A. Chammah. 1965. Prisoner's Dilemma. University of Michigan Press, Ann Arbor, MI. 1996. Origins of Virtue. Penguin, Harmondsworth. 邦訳リドレー『徳の起源』 翔泳社, 2000 K. 1993. Games of Life: Explorations in Ecology, Evolution and Behaviour. Penguin, Harmondsworth. 1995. Dark Nature: A Natural History of Evil. Hodder and Stoughton, London. and R. Axelrod. 1995. How to cope with noise in the iterated Prisoner's Dilemma. Journal of Conflict Resolution, 39:183-189. c に戻る YAMAGATA Hiroo.

次の