Die natürliche Weiterentwicklung der Entscheidungstheorie für die Rationalität von interaktiven Einzelhandlungen ist die Spieltheorie (Neumann/Morgenstern xx). In diesen Fall sind mehrere Individuen beteilt, im einfachsten Fall jeweils zwei 'Spieler', und der Nutzen der Handlung eines Spielers hängt davon ab, wie die anderen handeln ('spielen'). Die von Maynard-Smith (xx) begründete evolutionäre Spieltheorie hat hohe Bedeutung gewonnen, und das liegt wohl daran, dass sie über die Standardszenarien der Evolution durchaus hinausführt, weil hier die schon erläuterte interaktive Häufigkeitsabhängigkeit auftritt (Weibull xx). Wieder liegt in der Spieltheorie, welche Einzelhandlungen betrachtet, die Betonung auf der 'Rationalität', während dies für die evolutionäre Spieltheorie von untergeordnetem Belang ist. Wir betrachten im folgenden paarweise Interaktionen bzw. 2 Personen Spiele dies ist allgemeiner als es scheinen mag, da man oftmals Interaktionen zwischen vielen Individuen auf Folgen von paarweisen Interaktionen zurückführen kann. Die Nutzenmatrix eines solchen einfachen 2er-Spiels wird so dargestellt
Spieler B
Handlung H1 Handlung H2
Spieler A
Handlung ('Zug') H1 a\a' b\b'
Handlung H2 c\c' d\d'
a ist der Nutzen von A, wenn er H1 und B H2 ausführt, kurz a = nu(A| A:H1,B:H2); und a' ist der Nutzen von B in derselben Matrixzelle, d.h. a' = nu(B|A:H1, B:H2). Es muss weder angenommen werden, dass beiden Spielern dieselben Handlungsoptionen zur Verfügung stehen (man könnte also für B statt Hi auch Hi' schreiben), noch, dass es dieselbe Anzahl von Optionen ist (in unserem Beispiel ist das so). Bei einem Nullsummenspiel ist für jede mögliche Handlungskombination (von A und B) die Nutzensumme von A und B gleich null was A gewinnt, verliert B, und umgekehrt. Interessante kollektive Effekte, wie z.B. wechselseitige Kooperation oder Destruktion, d.h. nicht bloß einseitiger sondern allseitiger Vorteil oder Nachteil, treten nur bei Nichtnullsummenspielen auf; solche werden im folgenden betrachtet.
Bei einem symmetrischen Spiel abstrahiert man von Besonderheiten der Spielteilnehmer (ein asymmetrisches Spiel kann auch dadurch entstehen, dass beide Spieler verschiedene Handlungsoptionen haben, oder aber, verschiedene Fähigkeiten). Ein symmetrisches Spiel ist dadurch gekennzeichnet, dass beide Spieler dieselben (oder gleichviele) Handlungsoptionen haben, und dass der Nutzen invariant ist gegenüber Permutation der Spieler: in einem symmetrischen Spiel gilt also nu(A| A:Hi, B:Hj) = nu(B|B:Hi, A:Hj) bezogen auf obige Spielmatrix gilt also a = a', c = b', b = c', und d = d'. Bei einem symmetrischen Spiel erübrigt es sich also, beide Nutzenwerte in jede Zelle hineinzuschreiben, und die Matrix vereinfacht sich zu
H1 H2
H1 a b
H2 c d
worin lediglich die Nutzenwerte für Spieler A (den Zeilenspieler) stehen, da jene für B (dem Spaltenspieler) daraus eindeutig bestimmbar sind (a' = a, b' = c, c' = b und d' = d).
Wir stellen hier nur jene Grundbegriffe der Spieltheorie vor, die wir für unsere allgemein-evolutionäre Betrachtung benötigen (mehr Details in Kap. xx). Ein Gesamtzug ist eine Kombination von einem individuellem Zug von A und einem von B (Weibull sagt einem individuellen Zug 'Strategie' und zu einem Gesamtzug 'Strategieprofil'). Zwei Grundbegriffe der (nichtevolutionären) Spieltheorie, die eine wichtige Grundlage der theoretischen Ökonomie darstellt, sind das Nash-Gleichgewicht und die Pareto-Optimalität. Ein Gesamtzug ist ein Nash-Gleichgewicht, wenn keine Person ihre Handlung ceteris paribus (bei gleichbleibenden Handlungen der anderen Spieler) so ändern könnte, dass ihr Nutzen steigt. Er ist schwach bzw. stark Pareto-optimal, wenn es nicht möglich ist, dass mehrere Spieler simultan ihre Handlungen so ändern, dass (schwach:) alle besser gestellt sind, bzw. (stark:) dass keiner schlechter und mindestens einige besser gestellt sind. Die beiden Begriffe finden insbesondere Anwendung auf langfristige Spielstrategien, d.h. gewissen Regeln bzw. Dispositionen, nach denen ein Spieler spielt (wie denken uns Strategien als solche Spieldispositionen bzw. 'normnativ' gewendet, 'Regeln'). Wenn man dabei annimmt, dass viele Spieler einer Population immer wieder zufällig gepaarte Zweierspiele spielen, nähert man sich schon dem evolutionären Zugang (der bereits von Nash angedeutet wird; s. Weibull xx). Die Spieltheorie kennt nur reine Strategien und gemischte Strategien: "Spiele immer H1" wäre eine in unserem Beispiel reine Spielstrategie, und "spiele in p Prozent der Fälle H1 und in (1p) H2" eine gemischte. Reine Strategien sind Spezialfällen von gemischten mit p {0,1}. Eine gemischte Spielstrategie ist im Nash-Gleichgewicht, wenn es keine andere gemischte Strategie gibt, die gegenüber der (reinen oder gemischten) Strategie des Opponenten besser wäre. Man kann nun folgenden wichtigen Zusammenhang aufzeigen: eine gemischte Strategie, notiert als (pH1, (1p)H2) ist im Nash-Gleichgewicht gegenüber einer beliebigen anderen gemischten Strategie (qH1, (1q)H2)), g.d.w. gilt: p = q, und p ist die Gleichgewichtswahrscheinlichkeit, d.h. der mit den Wahrscheinlichkeiten gebildete Erwartungswert von H1 gleich der von H2 ist. Denn es gilt:
Erwartungsnutzen von (pH1, (1p)H2) gegenüber (qH1, (1q)H2) in einem symmetrischen Spiel a = nu(H1,H1), b = nu(H1,H2), c = nu(H2,H1), d = nu(H2,H2):
E = pqa + p(1q)b + (1p)qc + ((1p)(1q)d
Wir ermitteln das Maximum von E(p) durch Differenzieren nach p und Nullsetzen:
dE/dp = qa + (1q)b qc (1q)d =! 0
qa + (1q)b = qc + (1q)d
E(H1) = E(H2) bei einer (q,1q)-Verteilung des Opponenten.
Letztere Gleichung ist genau die Gleichgewichtsgleichung für E(H1) bzw. E(H2) in einer Population von Spielern mit q-Anteil H1-Spielern und (1q)-Anteil H2-Spielern; wenn die Paarungen zufällig erfolgen, dann ist dies der langfristige Durchschnittsnutzen. D.h., nur in diesem Fall haben H1- bzw. H2-Spieler denselben Erfolg bzw. vermehren sich populationsdynamisch gleich stark, und zwar unabhängig von ihrer Wahl von p. Falls die Bedingung für q dagegen nicht erfüllt ist, dann ist für E1 > E2 p(H1)=1 die beste Strategie und für E1
Es gibt drei grundlegende Arten symmetrischer Zweierspiele, die sich spieltheoretisch durch ihre Nash-Gleichgewichte auszeichnen (welche invariant sind unter normalisierenden Matrixtransformationen; s. Weibull xx), die aber auch für die evolutionäre Betrachtung grundlegend sind.
Spieltyp 1: Gefangenendilemma (prisoners dilemma) Matrixbeispiel:
D K
D 1 5 D = Defektion (Egoismus) K = Kooperation
K 0 3
Die Situation ist grundlegend für Kooperationssituationen, in denen jeweils von beiden Teilen ein gewisses Opfer (1) gebracht werden muss, damit ein höherer Effekt für den anderen (+2 Punkte) zustande kommt alle Arten gegenseitige Hilfeleistung, wenn der andere in Not ist (Abgeben von Nahrung, Wachestehen, usw.). Hier tritt das 'Schwarzfahrer'-, 'Trittbrettfahrer'-, bzw. 'Schmarotzer'-Problem ein: es ist immer besser, sich nur helfen zu lassen, ohne selber zu helfen (ergibt 5 Punkte). Hilft man, ohne selber geholfen zu werden, dann hat man gar 0 Punkte, noch weniger als wenn beide nicht helfen (dann für beide einen Punkt). Das Paradoxe daran ist, dass es aus individuell-egoistischer Sicht immer besser ist, zu defektieren; dazu betrachte man lediglich, dass sowohl gegenüber einem D-Opponenten Option D mehr Punkte als K bringt, wie gegenüber einem K-Opponenten. Und zwar, sowohl in einem einmaligen Spiel wie in einem wiederholten Spiel ohne Gedächtnis, und sowohl wenn man weiß wie der andere handelt wie wenn man es nicht weiß. Dieses 'ökonomisch rationale' Verhalten führt aber zum kollektiv irrationalen Ergebnis, dass beide Spieler D-spielen, m.a.W., D-D-ist das einzige Nash-Gleichgewicht aber dieses Nash-Gleichgewicht ist ein Pareto-suboptimalen Zustand landen (gegenüber K-K, dem stark Pareto-optimalen Zustand).
Dasselbe Ergebnis liefert die einfache evolutionäre Populationsanalyse, in der man annimmt, die Population besteht aus zwei Varianten, H1- und H2-Spielern, die sich proportionalzu ihren Nutzwerten vermehren, und zufällig gepaart werden, also nicht wissen, wie ihr Spieler bisher gespielt hat. Man fragt nach der populationsdynamischen Gleichgewichtsbedingung. Man kann den Erwartungsnutzen mit den bisherigen unnormierten Fitnessgraden identifizieren. Sind diese Fitnessgrade gleich, so ist die Population im Gleichgewicht: Mit p = p(C) lautet diese die Fitnessgrade:
E(D) = (1p)1 + p5 = 1+4p
E(C) = (1p)0 + 3p = 3p
Es gilt für jedes p, E(D) > E(C, d.h. es existiert kein nichttriviales Gleichgewicht. Daher kommt es evolutionstheoretisch zur Elimination von C alle Trajektorien, die nicht bei 0% D starten, streben zu 100% D was in den entsprechenden populationsdynamischen Gleichungen so nachvollzogen wird (asexuelle Vermehrung, E(C) = e, E(D) = d, p=p(C)):
pn+1 = ep /ep + d(1p) Kürzen durch p: 1. Lsg: p= 0
ep + d(1-p) = e; dies ist wegen d > e nur erfüllt für p=1; diese Lsg ist aber instabil, da für alle p> 0 pn+1 < pn gilt. Die (zeitabhängigen) Trajektorien sehen also so aus:
1
Die Matrix des Gefangenendilemmas kann von obigen Zahlenwerten abweichen; als Minimalbedingung wird üblicherweise (1.) b > d > a > b verlangt, sowie auch (2.) 2c > b + c; wobei über die 2. Bedingung Uneinigkeit besteht (Schüssler 1990, 22; Hegselmann/ Flache 2000).
Spieltyp 2: Krieg-Frieden-Spiel (Hawk-Dove, Chicken Game) Beispiel:
D C
D 1 6 D bedeutet hier: Alleinanspruch bei Kriegsandrohung;
C 0 3 C bedeutet: Teilungsbereitschaft und Friedfertigkeit
(s. Weibull 27). Hier ist lediglich der Nutzwert der D-D-Zelle von +1 auf 1 gesunken und liegt damit, im Gegensatz zum Gefangenendilemma, unter der D-K-Zelle (der D-K-Wert ist um 1 erhöht, was unwesentlich ist). Der Unterschied ist entscheidend. Es nhandelt sich um die typische Situation des Streites um ein von beiden beanspruchtes Gut, mit Kampfandrohen versus Nachgeben und Teilen als Handlungsoptionen, also etwa bei der Konkurrenz um Futter wobei beide Kämpfer in etwa gleich stark angesetzt werden. Nun gibt es, wenn beide Kampfandrohen und in der Folge kämpfen, hohe Kosten, welche die Kosten dessen, der nachgibt, überwiegen. Wenn beide nachgeben und sich das Futter teilen, dann erhalten beide die Hälfte Gesamtgutes. Die allgemeine Formulierung der Matrix ist (Weibull 27):
a = (vc)/2 b = v
c = 0 und d = v/2
dabei ist v der Nutzen des gesamten Gutes, um das gestritten wird, und c sind die Kosten davon, wenn es zum Kampf kommt; es wird c > v vorausgesetzt. Das Spiel hat nun zwei strikte Nash-Gleichgewichte, nämlich (D,K) und (K,D) was populationsdynamisch bedeutet, wenn alle anderen D spielen, bzw. mit Sicherheit D spielen, ist es am besten, K zu spielen, und wenn alle K spielen, ist es am besten, D zu spielen. Das Mischgleichgewicht ist durch die Bedingung der Gleichheit der Fitnessgrade gegeben (p = p(K)):
E(D) = (1p) + 6p = E(K) = 3(1p); 6p = 44p; 10p = 4, Lösung: p = 2/5.
bzw. im allgemeinen Fall: ((vc)/2)(1p) + vp = (v/2)p
((vc)/2)(1p) + vp = (v/2)p
vp = (cv)(1p) = cv p(cv)
pc = cv; p = (cv)/c.
Das wesentliche der Trajektorien ist nun, dass hier eine beidseitig negative Häufigkeitsabhängigkeit für extreme Werte vorliegt; d.h. spielen fast alle D, dann bringt es mehr Erfolg, K zu spielen, und umgekehrt. Daher sind die Trajektorien dieses Spieles s approximativ stabil und tendieren gegen den Gleichgewichtswert.
Gleichgewicht
3. Spieltyp: Koordinationsspiel (Weibull 26):
H1 H2
H1 1 0 H1 Konvention 1
H2 0 2 H2 – Konvention 2
Auch diese Spielmatrix ist verallgemeinerbar; wichtig ist, dass (verallgemeinert für n mal n Matrizen) jeder Diagonalwerte grösser sind als sämtliche Nichtdiagonalwerte in seiner Spalte. D.h., für jeden Spieler ist es am besten, so wie der andere zu spielen. Die Spiele beschreiben somit das Problem, dass sich zwei Spieler, oder viele Spieler ohne Gedächtnis (und mit Zufallspaarung) auf eine gemeinsame Handlung einigen. Jede solche Lösung kann auch als erfolgreiche soziale Konvention aufgefaßt werden. Dabei mag es um eine Verkehrsregel (rechts-vor-links), oder um einen Ort, wo man sich trifft (z.B. der Marktplatz als Handelstreffpunkt), oder um ein gemeinsames Erkennungszeichen oder gar um die Benutzung eines Wortes gehen, z.B. dass mit der Lautfolge "Risch" immer ein Tisch bezeichnet wird. Natürlich kann man dies durch rationalen kollektiven Diskurs tun, was eine hohe individuelle und kollektive Rationalität der Diskursteilnehmer erfordert, die in realsituationen meistens kaum gegeben ist (zu solchen Modellen siehe Gricexx, Tuomela xx); aber der Punkt der evolutionären Betrachtungsweise ist, dass die Einigung auch ohne rationalen Diskurs zustandekommt. Wenn alle Diagonalwerte gleich hoch sind, so ist keines der Koordinationsgleichgewichte bevorzugt; jedes ist Pareto-optimal,; es ergibt sich eine Pluralität gleichberechtigter konventioneller Regelungen; andernfalls ist ein Gleichgwicht Pareto-bevorzugt. Wie beim Frieden-Krieg-Spiel sind beide Gesamtzüge (H1, H1) und (H2, H2) Nash-Gleichgewichte, und es existiert wieder ein gemischtes Gleichgewicht, welches sogar derselben Formel (in Termen a, b, c und d) genügt in unserem Fall (mit p = p(H1)):
E(H1) = p + 0 = E(H2) = 0 + 2(1p), d.h. 3p = 1, d.h. p = 2/3.
Der Unterschied ist allerdings, dass dieses Gleichgewicht nun instabil ist in Hinblick auf seine Trajektorien der Unterschied wird bei Beschränkung auf Nash-Gleichgewichte gar nicht sichtbar. Jede geringste Abweichung des Populationsgleichgewichts von 2/3 nach oben erhöht die Fitness von H1 gegenüber der von H2 und führt zur Elimination von H2; jede Abweichung nach unten erhöht die Fitness von H2 und führt zur Elimination von H1. Die zeitabhängigen Trajektorien sehen also so aus:
Dies erklärt, warum minimale Zufallsschwankung das Koordinationsspiel immer zu einer stabilen Konvention führen, denn sobald sich eine Konvention etwas mehr als die andere durchgesetzt hat, ist es vorteilhafter, zu der ersteren überzugehen. Die Situiation ähnelt hier also der Evolution mit positiver reflexiver Häufigkeitsabhängigkeit je häufiger eine Konvention im Vergleich zu anderen ist, desto schneller vermehrt sie sich auch.
Es gibt Koordinationsspiele mit Besonderheiten. Im einfachsten Fall, wenn wie in unserem Beispiel ein Koordinationsgleichgewicht deutlich Pareto-besser ist als das andere (H1-H1 versus H2-H2) eine Population kann dann dennoch in einem ungünstigerem Koordinationsgleichgewicht gefangen bleiben, denn wenn alle H1 spielen, ist es extrem ungünstig, H2 zu spielen. Es wird dann enorm schwierig, und bedarf extremer äußerer (z.B. staatlicher oder natürlicher) Eingriffe, um auf die andere Konvention umzuspringen.
Die Aussichten für die Entstehung von kooperativem Verhalten sehen also bisher eher ungünstig aus, insbesondere beim Gefangenendilemma. Schon an dieser Stelle bietet sich das Kardinalargument an, warum die Bedeutung der Entwicklung eines institutionalisierten Rechtssystems, also eines rechtlich-basierten Saktionssystems, dass egoistische Regelbrecher bestraft, so wichtig ist. Seit dem babylonischen Reich, dessen "Koxdex Hammurabi" das erste überlieferte rechtssystem ist, basieren alle grösseren sozialen Gebilde, Kleinstaaten, Frühstaaten, oder Staaten, darauf, und wir gehen darauf später näher ein. Durch sanktioniertes Recht werden die Nutzenwerte der Matrix verändert. Wenn angenommen der Defektierer in der Matrix des Gefangenendilemmas zusätzliche 2 Strafpunkte erhält, verändert sich die Matrix zu
D K
D 1 3
K 0 3,
und es wird ein Spiel daraus, dessen Trajektorien für alle Ausgangswerte, die nicht bei 100%-Defektisten starten, zu 100% Kooperatisten klettert. Denn für die Erwartungsnutzen gilt – mit p = p(D):
E(D) = 1p + 3(1p)
E(K) = 3(1p),
d.h. für p > null gilt immer E(K) > E(D). Wenn aber p = 0 gilt, ist der 100%-K-Wert ohnedies erreicht, und eine Rückevolution findet nicht statt es ist also gar nicht nötig, dass die Bestrafung so gross ist, dass der Wert von K-K über dem von D-K liegt; es genügt, dass beide Werte gleich groß werden.
Es fragt sich aber, wie denn in einer Situation des allseitigen Egoismus und Krieges überhaupt ein institutionalisiertes Rechtssystem entstehen ckann. Auch dazu gibt es verschiedene Ansätze, die später besprochen werden und damit zu tun haben, dass die Staatsführer zunächst im Sinne einer Mafia ein Land in Besitz nehmen, aber zugleich darauf achten müssen, dasse ein gewisses Maß an Kooperation in der Bevölkerung erhalten bleibt, usw., und daher ein mit Sanktionen verbundenes Regelsystem erstellen, das einerseits ihrem Vorteil und andererseits der für wirtschaftliche prosperität nötigen Kooperation dient. Jedenfalls haben angesichts dieser Schwierigkeit evolutionäre Sozial- und Kulturwissenschaftler nach Wegen gefragt, ob denn Kooperation nicht auch spontan entstehen kann. Die Grundlage hierzu bilie Untersuchung von iterierten Interaktionsspielen mit Gedächtnis, worin jede Person den anderen sozusagen aufgrund seines früheres Verhalten gezielt behandeln kann insbesondere etwa die berühmte goldene Regel des "Wie du mir, so ich dir" (auch: TFT tit for tat) anwenden kann. Es wird diskutiert, dass in frühen Stammesverbänden, wo jeder jeden kennt, Kooperation spontan entstehen konnte, während sanktioniertes Recht erst in von diktatorischen Führen organisierten Kleinstaaten nötig wird (Binmore xx).
Axelrod (1984) war einer der ersten, der das iterierte symmetrische Gefangenendilemma mit Gedächtnis systematisch zu untersuchen begann, und zwar auf der Grundlage von von ihm organisierten Computertournieren. Hier merkt sich jeder Spieler, wie jeder andere Spieler bisher gegen ihn gespielt hat, und kann darauf aufbauend verschiedene auf das Partnerverhalten bezogene Sozialstrategien entwickeln, die wie sich herausstellt evolutionär sehr unterschiedlichen Erfolg haben. Obwohl es rein kombinatorisch eine mit der Anzahl der berücksichtigten (in der Vergangenheit liegenden) Spielzüge n superexponentiell anwachsende Menge möglicher sozialer Strategien gibt (nämlich 2(4n)), hat Axelrod auf der Grundlage seiner evolutionären Computersimulationen sehr mutig für die These argumentiert, dass sich eine Strategie unter all diesen als die erfolgreichste erweist, nämlich die Strategie TFT: TFT spielt im ersten Zug kooperativ, und in jedem Folgezug genau so, wie sein jeweilihger Partner (der bei Zufallspaarungen sich ändern kann) im jeweils vorausliegenden Zug gespielt hat (den sich ein TFT-Spieler für jedes Populationsmitglied merken muss). In den Computertournieren, die Axelrod veranstaltete, haben eine Reihe von Wissenschaftler diverse andere iterierte Strategien entwickelt, die einfachsten bzw. naiven Strategien "Always D" (defektiert immer), "Always C", "Grim" (spielt zuerst kooperativ, aber wenn mein Partner auch nur einmal defektiert, defektiere ich von dann an immer gegen ihn), "TFTT – tit for two tat" (defektiert nur, wenn der Partner in den jeweils zwei vorausliegenden Zügen defekiert hat, sonst wird defektiert), Tat for Tit (defektiert zuerst und spielt dann so wie Tit for tat), "Tester" (versucht erst auszubeuten, und nur wenn der Partner revanchiert, spielt es wie TFT), "Random" (spielt zufällig einmal D und einmal C), usw. (näheres Kap. xx). Der Erfolg jeder Spielstrategie misst sich dabei nicht durch die Anzahl der Turniersiege (TFT gewinnt nie, aber kassiert auch nie hohe Verluste), sondern durch den Absolutertrag, der in Turnieren mit allen Spielern der Population erzielt wurde. Die Tatsache, dass seine These zunächst wenig Kritik ausgesetzt war, hat wohl damit zu tun, dass diese Strategie, auch "goldene Regel" oder einfaches Reziprozitätsprinzip genannt, eine grundlegende Regel der realgeschichtlichen Sozialmoral auszumacht, und wie die entwicklungspsychologischen Befunde über die Moralentwicklung des Kindes vermuten lassen (s. Piaget xx), zugleich eine gewisse angeborene Grundlage zu besitzen scheint.
Axelrod hat behauptet, dass sich die Überlegenheit von TFT im evolutionäen Szenario (also unabhängig von rationalen Absprachen unter fast allen Startbedingungen der evolutiven Simulation einstellt, (ii) sich diese Überlegenheit unabhängig davon einstellt, ob die Spieler rational sind oder miteinander Absprachen eingehen können, sowie (iii) auch unabhängig davon, dass es eine zentrale Kontrollautorität gibt, die strafend eingreift. In zahlreichen Folgeuntersuchungen wurden Axelrods Thesen modifiziert, abgeschwächt und bezweifelt. Schüssler (1990, 34ff) macht deutlich, dass der Erfolg von TFT sich empfindlich ändert, wenn man eine zufallsbedingte Irrtumswahrscheinlichkeit hinzufügt, oder wenn man die Spieleinsätze variiert (vgl. Donninger 1986). Binmore (1998, 314) führt an, dass TFT nicht einmal besonders ausgezeichnet sei; z.B. würde die Strategie Grim siegen, wenn die Startmenge aus allen 32 Strategien besteht, die sich jeweils den eigenen den und anderen vorausliegenden Zug merken (formal dargestellt durch alle Funktionen von {< , > , , , , } nach {D,C}). Grim antwortet auf jede unprovozierte Defektion damit, von nun an immer D zu spielen. Binmore (ibid, 321f) hebt auch hervor, dass sich in einer TFT-Population die disfunktionale Mutation zu Always-C ungehindert ausbreiten könnte; eine derart unterwanderte Population würde dann leicht ein 'Massenopfer' von Always-D werden. Axelrod konnte seine Behauptungen nicht beweisen. Er zeigte (1984, 186ff)), dass TFT eine sogenannte 'kollektiv stabile' Strategie (KSS) ist, d.h. die Bedingung (a) S: nu(TFT,TFT) nu(S,TFT) erfüllt; dabei steht "nu(S1,S2)" steht) für den langfristigen Erfolg von S1 iin iterierten Spielen gegen S2. Es gibt jedoch unendlich viele KSSe im Sinne Axelrods; insbesondere ist auch Always-D eine KSS (vgl. Binmore 1998, 304). Andererseits ist TFT keine evolutionär stabile Strategie (ESS) im Sinne von Maynard-Smith (1982) ist, was erfordern würde, dass neben obiger Bedingung (a) auch Bedingung (b) S: nu(TFT,TFT) = nu(S,TFT) nu(S,S) < nu(TFT,S) erfüllt ist. Erst Bedingung (b) garantiert, dass ein 100%iges TFT-Kollektiv vor dem Eindringen von kleinen Gruppen alternativer Strategien gefeit ist, weil diese sich darin schlechter vermehren (vgl. Schüssler 1990, 106f, Binmore 1998, 321f, Weibull 1995, 36ff). Man konnte sogar zeigen, dass es im iterierten PD keine Strategie existiert, die ein ESS wäre (Lorberbaum 1996). Das Problem ist, dass es viele Strategien gibt, die untereinander jeweils gleich optimal, d.h. durchgehend kooperativ spielen, für die also e(Si,Si) = e(Si,Sj) = e(Sj,Sj) gilt. Dennoch können in evolutionären Szenarien zwischen solchen scheinbar 'äquivalenten' Strategien erhebliche Unterschiede auftreten durch das Vorhandensein dritter und nicht 'äquivalenter' Strategien, die von den ersten beiden entweder unterschiedlich gut ausgebeutet werden, oder die diese unterschiedlich gut ausbeuten.
Arnold hat das iterierte Gefangenendilemma-Spiel durch massive Simulationen bei variierenden Anfansbedingunegen untersucht und gelangt zum Ergebnis, dass (1.) alles davon abhängt, welche Strategien zu Anfang vorhanden sind und in welcher Verteilung sie vorhanden sind, sowie das (2.) sich kein durchschnittlicher Voreil von TFT nachweisen läß, und dass nicht einmal generell kooperativ-revanchierende STrategien besser abschneiden als vorwiegend ausbeuterische. Axelrods These muss als falsch erachtet werden. Für uns ist hier bedeutend, das die Situation also ingesamt instabil ist d.h. es gibt im iterierten Gefangenendilemma keine allgemeinstabilen unabhängig von Anfangsbedingungen stabilen Ergebnisse. Das Grundproblem dabei ist folgendes: häufig kann sich eine Strategie A (geschickter Ausbeuter) nur desswegen besser vermehren als eine dritte revanchierend-kooperierende C (z.B. TFT), weil eine zweite B (z.B. Always-C) vorhanden ist, die sich ausbeuten läßt; damit nimmt zunächst B und etwas langsamer C in der Häufigkeit ab, was dazu führt, das in Folge, wenn B ganz ausgestorben ist, sich wieder C besser vermehrt als A, weil ja nun B ausgestorben ist, und C gegenüber sich selbst besser spielt als A gegenüber C nun hängt aber alles davon ab, wie stark C in seiner Häufigkeit gegenüber A zum Zeitpunkt des Aussterbens von B bereits gesunken ist, dami sich C wieder gegenüber A erholen kann und schließlich doch die Oberhand behält. Wir wollen dies, ohne auf Details von SPielmatrizen eingehen, wie folgt simulieren:
Dostları ilə paylaş: |