De laatste paar weken heb ik het TV-programma Expeditie Robinson gevolgd. Elke week wordt er een kandidaat weggestemd door de andere deelnemers. Het interessante hieraan is het overleg dat iedereen met elkaar heeft en het charme-offensief van sommige spelers om andere deelnemers over te halen op een bepaalde speler te stemmen. Mensen die weten dat ze op zichzelf zijn aangewezen stemmen natuurlijk sneller met een groep mee, zodat ze zelf veilig zijn.
TV-makers zijn bekend met vergelijkbare interessante situaties die kunnen ontstaan wanneer shows op een bepaalde manier worden ingedeeld. De onderdelen in programma’s kunnen vaak geanalyseerd worden met behulp van speltheorie. Voordat ik een aantal voorbeelden van spellen wil geven, wil ik het meest bekende voorbeeld van de speltheorie kort uitleggen, namelijk het dilemma van de gevangenen (prisoner’s dilemma).
Twee verdachten hebben samen een inbraak gepleegd. Er is echter niet voldoende bewijs, tenzij de ene verdachte de andere verraadt. Zonder bewijs is de gevangenisstraf 1 maand, met bewijs 10 maanden. Wanneer een verdachte zijn compagnon verraadt krijgt hij geen straf. In dit spel zijn dus twee spelers, verdachte 1 en verdachte 2. Iedere speler heeft twee mogelijke acties, namelijk de andere speler verraden of dit niet te doen door te zwijgen. Onder een strategie zullen we in het algemeen verstaan: een volledig plan om het spel te spelen. Aangezien in dit geval de spelers gelijktijdig en onafhankelijk van elkaar een actie kiezen, zijn deze twee acties tevens de twee mogelijke strategieën: immers, het kiezen van verraden of zwijgen is een volledig speelplan. De uitbetalingen zijn hier identiek aan het aantal maanden gevangenisstraf met een minteken ervoor: bij uitbetalingen denken we aan iets wat de spelers graag hebben en willen maximaliseren. We kunnen deze uitbetalingen dan overzichtelijk in een matrix weergeven. Verdachte 1 kiest met zijn strategie de rij en verdachte 2 de kolom. Het eerste getal (voor de komma) in elke cel is per definitie de uitbetaling aan verdachte 1 en het tweede getal de uitbetaling aan verdachte 2.
Aangezien de verdachten apart worden verhoord, is niet bekend welke strategie de compagnon speelt. Als verdachte 1 er op rekent dat de andere verdacht hem verlinkt, kan hij kiezen uit een straf van 6 maanden of een straf van 10 maanden. Gegeven dat verdachte 2 verdachte 1 verraad, is de optimale keuze voor verdachte 1 om ook te gaan praten. Als er door verdachte 1 van uit wordt gegaan dat verdacht 2 zwijgt, kan hij kiezen uit een straf van 0 of 1 maanden. Wederom is het verraden optimaal voor verdachte 1. Voor verdachte 2 gelden dezelfde uitbetalingen, dus is, ongeacht wat de andere speler doet, het verraden de optimale keuze. Verraden is met andere woorden de dominante strategie. In deze situatie zullen beide verdachte dus een half jaar straf krijgen. De cel linksboven heet ook wel het Nash equilibrium. Dit evenwicht houdt in dat wanneer een van de spelers zijn strategie wijzigt, hij er op achter uit gaat. Dit is voor beide verdachten het geval, want wanneer zij switchen van hun strategie door te zwijgen, zullen zij 10 maanden straf krijgen in plaats van 6. Het moge duidelijk zijn dat dit niet optimale keuze is voor beide verdachten samen. Tezamen zijn zij met een totale straf van 2 maanden natuurlijk het beste af door beide te zwijgen. Deze cel wordt ook wel het Pareto optimum genoemd.
Soortgelijke situaties zijn terug te vinden in verschillende programma’s. Denk hierbij aan de prachtige vierde aflevering van Wie Is De Mol 2012. In deze aflevering mag de groep overleggen over het lot van William en Marit. Wanneer de groep unaniem op groen stemt, mogen beide deelnemers blijven en wordt er €3000 aan de pot toegevoegd. Wanneer de meerderheid groen stemt, mogen beide spelers blijven, maar gaat de pot naar 0 euro. Wanneer er unaniem rood wordt gestemd gaat één van de twee spelers naar huis en wordt er €3000 uit de pot verwijderd. Bij een rode meerderheid gaat één van de spelers naar huis en blijft de pot gelijk. Tijdens de onderhandelingen wordt in paren overlegd. De aflevering is hier terug te zien (vanaf 39:50 wordt het interessant):
Voor de groep is het qua pot natuurlijk het interessants wanneer iedereen groen stemt. Voor de mol is het dan natuurlijk simpel om rood te stemmen en de pot te legen. Al met al een interessant schouwspel. Andere formats waarin een vergelijkbaar dilemma aan de orde is, is De Gemene Deler. In dit spel wordt door een drietal spelers telkens meerkeuzevragen beantwoord die unaniem beantwoord moeten worden en bij een goed antwoord geld op leveren. Aan het einde van het spel, in de finale, wordt het “gewonnen” bedrag in drie ongelijk delen verdeeld. Hier moet door de spelers, natuurlijk unaniem, worden besloten welke speler welk deel van het geld krijgt. Hoe langer men wacht met beslissen hoe meer geld er verdwijnt uit de pot.
Een format dat nog meer overeenkomt met het eerder geschetste prisoner’s dilemma is het programma Golden Balls. In de finale mogen twee spelers kiezen: willen ze de hoofdprijs delen of stelen? Ze krijgen elk twee gouden ballen (vandaar de naam van het spel): in de ene bal staat delen en in de andere stelen. Elke speler kiest een bal, de ander kan niet zien wat daarin staat. Dan houden ze de ballen omhoog en maken ze tegelijk open. Als de spelers allebei kiezen voor delen, dan krijgen ze elk de helft van de hoofdprijs. Maar als één van de spelers stelen pakt en de ander delen, dan krijgt de dief de hele hoofdprijs. Als de spelers allebei inhalig voor stelen kiezen, dan krijgen ze helemaal niets. Gegeven de eerdere theorie is het kiezen voor stelen het veiligst. Als de tegenstander gaat voor ‘stelen’ heb jij sowieso geen geld. Wanneer jij kiest voor ‘delen’ ontvangt je tegenstander al het geld en bij ‘stelen’ krijgt niemand geld. Hier is je keuze voor je eigen winst dus irrelevant. Wanneer de tegenstander ‘deelt’, heb jij bij ‘delen’ de helft van het prijzengeld en bij ‘stelen’ alles. Kijk hier voor prachtige televisie:
Innovation distinguishes between a leader and a follower.
Steve Jobs |