estratégico - ebour.com.ar DE LOS JUEGOS.pdf · ... es un . juego de suma cero. ... Las reglas son...

43
XVI. Teoría de los juegos 428 XVI. TEORÍA DE LOS JUEGOS 1 Hasta ahora, la economía ha sido reducida a un caso simple: los agentes son una pequeña parte del mercado y toman al comportamiento de los restantes agentes como dados; tampoco tienen que preocuparse en cómo su propio comportamiento afectará al de los demás. Para ellos, el resto del mundo consiste de un conjunto de precios a los que produce y puede comprar si así lo desea. El monopolista que hemos analizado es lo suficientemente grande como para afectar a todo el mercado, pero se maneja con una multitud de consumidores individuales, cada uno de los cuales sabe que su conducta no va a afectar a la conducta del monopolista 2 . Por lo tanto, cada uno reacciona en forma pasiva a las decisiones del monopolio. Compra la cantidad que maximiza el bienestar propio al precio fijado por el monopolista. Desde el punto del monopolista, los compradores ni siquiera son personas; son una curva de demanda. El análisis ha eliminado un aspecto importante de la interacción humana y de los mercados: el comportamiento estratégico. Que se manifiesta a través de negociaciones, amenazas, trampas. Por este motivo a muchos alumnos la teoría de los precios les parece una abstracción sin sangre. La economía es presentada en términos de individuos solitarios, a lo sumo de pequeños grupos de productores, cada uno de los cuales maximiza contra un entorno esencialmente carente de rasgos humanos, un conjunto de oportunidades más que una población de seres humanos con deseos propios. Por supuesto que hay un motivo para proceder así. El análisis del comportamiento estratégico es un problema extraordinariamente difícil. John Von Neumann, una de las mentes más brillantes del siglo XX (Nicholas Kaldor escribiría más tarde, "He was unquestionably the nearest thing to a genius I have ever encountered."), tuvo que crear una nueva rama de las matemáticas cuando fracasó al intentar resolverlo. Y la obra de los que le siguieron tampoco llegó a agregar demasiado como para decir qué haría la gente en tal o cuál situación. Esto no significa que la teoría de los precios sea inútil o irreal. Desde cierto punto de vista, es ciertamente irreal. Pero constituye uno de los logros más impresionantes para explicar el funcionamiento económico de una sociedad, en forma relativamente simple, evitando las situaciones de conducta estratégica. Lo que inventaron Von Neumann, Nash y vamos analizar hoy, es la teoría de los juegos. En esta primera sección veremos una introducción general, no técnica, al problema. Luego entraremos en detalles más técnicos. 1. El Comportamiento Estratégico 1 Véase D. Friedman, Price Theory: An Intermediate Text, 1986, 1990; Roberto Serrano, The Nash Program, May 2005 (The New Palgrave Dictionary of Economics, 2nd edition, McMillan, London); Martin Shubik, Some Simple Games for Teaching and Research, 1 – Cooperative Games; Nick Baigent, Game theory, Winter Semester 2006; Michael Intriligator, Optimización matemática y teoría económica; R. Aumann, “What is Game Theory trying to Accomplish?”, in Frontiers of Economics, ed. K. Arrow and S. Honkapohja, Oxford, 1985; R. Aumann, “Game Theory” (The New Palgrave: A Dictionnary of Economics, Vol. 2, ed. J. Eatwell, M. Milgate, and P. Newman, London, 1987); Andreu Mas-Colell, Michael Whinston and Jerry Green, Microeconomic Theory, Oxford University Press, 1995; Eric Maskin, Evolution, Cooperation and Repeated Games (based on work with D. Fudenberg), December 2007; Wikipedia; The History of Economic Thought Website. 2 Pero el monopolista debe preocuparse de sus competidores potenciales en un mercado disputable.

Transcript of estratégico - ebour.com.ar DE LOS JUEGOS.pdf · ... es un . juego de suma cero. ... Las reglas son...

XVI. Teoría de los juegos 428

XVI. TEORÍA DE LOS JUEGOS 1 Hasta ahora, la economía ha sido reducida a un caso simple: los agentes son una pequeña parte del mercado y toman al comportamiento de los restantes agentes como dados; tampoco tienen que preocuparse en cómo su propio comportamiento afectará al de los demás. Para ellos, el resto del mundo consiste de un conjunto de precios a los que produce y puede comprar si así lo desea. El monopolista que hemos analizado es lo suficientemente grande como para afectar a todo el mercado, pero se maneja con una multitud de consumidores individuales, cada uno de los cuales sabe que su conducta no va a afectar a la conducta del monopolista2. Por lo tanto, cada uno reacciona en forma pasiva a las decisiones del monopolio. Compra la cantidad que maximiza el bienestar propio al precio fijado por el monopolista. Desde el punto del monopolista, los compradores ni siquiera son personas; son una curva de demanda. El análisis ha eliminado un aspecto importante de la interacción humana y de los mercados: el comportamiento estratégico. Que se manifiesta a través de negociaciones, amenazas, trampas. Por este motivo a muchos alumnos la teoría de los precios les parece una abstracción sin sangre. La economía es presentada en términos de individuos solitarios, a lo sumo de pequeños grupos de productores, cada uno de los cuales maximiza contra un entorno esencialmente carente de rasgos humanos, un conjunto de oportunidades más que una población de seres humanos con deseos propios. Por supuesto que hay un motivo para proceder así. El análisis del comportamiento estratégico es un problema extraordinariamente difícil. John Von Neumann, una de las mentes más brillantes del siglo XX (Nicholas Kaldor escribiría más tarde, "He was unquestionably the nearest thing to a genius I have ever encountered."), tuvo que crear una nueva rama de las matemáticas cuando fracasó al intentar resolverlo. Y la obra de los que le siguieron tampoco llegó a agregar demasiado como para decir qué haría la gente en tal o cuál situación. Esto no significa que la teoría de los precios sea inútil o irreal. Desde cierto punto de vista, es ciertamente irreal. Pero constituye uno de los logros más impresionantes para explicar el funcionamiento económico de una sociedad, en forma relativamente simple, evitando las situaciones de conducta estratégica. Lo que inventaron Von Neumann, Nash y vamos analizar hoy, es la teoría de los juegos. En esta primera sección veremos una introducción general, no técnica, al problema. Luego entraremos en detalles más técnicos. 1. El Comportamiento Estratégico

1 Véase D. Friedman, Price Theory: An Intermediate Text, 1986, 1990; Roberto Serrano, The Nash Program, May 2005 (The New Palgrave Dictionary of Economics, 2nd edition, McMillan, London); Martin Shubik, Some Simple Games for Teaching and Research, 1 – Cooperative Games; Nick Baigent, Game theory, Winter Semester 2006; Michael Intriligator, Optimización matemática y teoría económica; R. Aumann, “What is Game Theory trying to Accomplish?”, in Frontiers of Economics, ed. K. Arrow and S. Honkapohja, Oxford, 1985; R. Aumann, “Game Theory” (The New Palgrave: A Dictionnary of Economics, Vol. 2, ed. J. Eatwell, M. Milgate, and P. Newman, London, 1987); Andreu Mas-Colell, Michael Whinston and Jerry Green, Microeconomic Theory, Oxford University Press, 1995; Eric Maskin, Evolution, Cooperation and Repeated Games (based on work with D. Fudenberg), December 2007; Wikipedia; The History of Economic Thought Website. 2 Pero el monopolista debe preocuparse de sus competidores potenciales en un mercado disputable.

XVI. Teoría de los juegos 429

El juego “Tijeras, Papel y Piedra” es jugado a veces por los niños. A la cuenta de tres, los dos jugadores ponen en forma simultánea sus manos en alguna de tres posiciones: un puño apretado como piedra, una mano abierta como papel ó dos dedos separados como tijeras. El ganador es determinado mediante la regla simple siguiente: tijeras cortan papel, papel cubre la piedra, la piedra rompe las tijeras. Vamos a representar el juego mediante una matriz de pagos de 3x3. Las filas son las estrategias del jugador 1, las columnas las estrategias del jugador 2. Cada celda es la intersección de una fila y una columna, e indica lo que sucede si los jugadores eligen esas dos estrategias; el primer número de la celda es el resultado (el nombre técnico es pago o recompensa) para el Jugador 1, el segundo para el Jugador 2, por lo que la matriz es llamada matriz de pagos. Conviene pensar en las recompensas como sumas de dinero, y que los jugadores tratarán de maximizar sus recompensas esperadas – el monto esperado que ganarán.

Jugador Dos Tijeras Papel Piedras

Tijeras 0, 0 +1, -1 -1, +1 Papel -1, +1 0, 0 +1, -1

Jugador Uno

Piedras +1, -1 -1, +1 0, 0 Observen que cada jugador hace un solo movimiento y los movimientos se descubren simultáneamente, lo que hace más fácil representarlo mediante una matriz como la anterior, en la cual un jugador elige una fila, otro elige una columna, y el resultado queda determinado por su intersección. Luego se verá que de esta forma puede ser representado todo juego bi-personal, aún algunos complicados como el ajedrez. También obsérvese que, aunque se trata de un juego sencillo, no está del todo clara cuál es la solución. Ni siquiera qué significa hallar una solución. En este juego, no existe estrategia ganadora para alguno de los jugadores, a diferencia de algunos juegos muy complicados. A pesar de que es difícil establecer cuál es la estrategia correcta, se puede afirmar con alguna confianza que un jugador que elija siempre “piedra” cometerá un error. Rápidamente descubrirá que su piedra siempre queda cubierta. Una característica de una estrategia exitosa es su carácter impredecible. Este punto de vista sugiere la posibilidad de armar estrategias deliberadamente impredecibles (“randomizadas”). Supóngase que elijo mi estrategia tirando un dado, cuidando que mi oponente no espíe. Si resulta 1 o 2, juego tijeras; 3 o 4, papel; 5 o 6, piedra. Cualquiera sea la estrategia que siga mi oponente (más allá de espiar el dado o leer mi mente) yo ganaré en promedio una tercera parte de los juegos, perderé una tercera parte de los juegos y empataré en los restantes. Cabe preguntarse: hay alguna estrategia mejor? La respuesta es no si se enfrenta a un oponente inteligente. El juego es simétrico; la estrategia randomizada está disponible tanto para él como para mí. En consecuencia, lo que yo haga él, en promedio, lo empardará, y lo mismo haré yo. Este es un juego con una importante característica: es un juego de suma cero. Lo que gana un jugador es lo que pierde el otro. Monopolio bilateral, extinción nuclear y puñaladas en el bar Veamos ahora el monopolio bilateral. Las reglas son simples: usted y yo tenemos un peso para dividirnos entre nosotros, siempre que lleguemos a un acuerdo sobre la división. Si no lo hacemos, el peso se esfuma.

XVI. Teoría de los juegos 430

Este juego (monopolio bilateral porque corresponde a un mercado con un comprador y un vendedor) se presta a otras alternativas. Yo tengo la única manzana y usted es la única persona del mundo que no es alérgica a las manzanas. Para mí, la manzana no vale nada y un peso para usted. Si yo se la vendo por un peso, yo quedo mejor por un peso y usted, como ha pagado exactamente el valor de la manzana, queda tan bien como si no la hubiera comprado. Si yo se la doy a usted, yo no gano nada y usted gana un peso. Cualquier precio entre cero y uno representa alguna división de la ganancia monetaria entre nosotros. Si no nos podemos poner de acuerdo sobre un precio yo retengo la manzana y el beneficio potencial del comercio se pierde. El monopolio bilateral encapsula de forma simpática la combinación de intereses comunes y conflicto de intereses, cooperación y competencia, que es típica de varias interacciones humanas. Los jugadores tienen interés común en alcanzar un acuerdo, pero un conflicto sobre los términos del acuerdo. Los Estados Unidos y la Unión Soviética tenían un interés común en preservar la paz pero un conflicto sobre cuán favorables debían ser sus términos para cada lado. Marido y mujer tienen un interés común en preservar un matrimonio feliz y armonioso pero innumerables conflictos sobre cómo sus limitados recursos deben ser gastados en cosas que son valoradas por cada uno. Los miembros de un cartel tienen un interés común en mantener la producción reducida y los precios elevados pero surgen conflictos acerca de qué firma retira cuánto del beneficio monopólico resultante. El monopolio bilateral no es un juego suma cero. Si alcanzamos un acuerdo, nuestras ganancias sumarán $1; si fracasamos en alcanzarlo, sumarán cero. Esta característica lo hace fundamentalmente diferente al de Tijeras, Papel y Piedra, ya que permite amenazas, negociaciones y mentiras. Yo he decidido obtener 90 centavos de la ganancia monetaria. Le informo a usted que rechazaré considerar términos menos favorables; a Ud sólo le queda elegir entre 10 centavos y nada. Si usted me cree cederá. Si usted resiste mi oferta e insiste que sólo me entregará 40 centavos, yo, a mi turno, si le creo, tengo la opción de 40 centavos o nada. Cada jugador trata de obtener un mejor acuerdo para sí amenazando en forzar un resultado que es peor para ambos. Una manera de ganar tales juegos es encontrar algún modo de comprometerse, de que sea imposible echarse atrás. Un niño con buenos instintos estratégicos podría anunciar “Juro que no tendrán más que 20 centavos, bajo juramento de muerte.” Si el segundo jugador cree que el juramento es vinculante – que el primer jugador no retrocederá porque ninguna porción de un peso es equivalente a la vergüenza de romper un juramento – la estrategia funcionará. El segundo jugador vuelve a su casa con 20 centavos y resuelto a que la próxima vez realizará la promesa en primer término. La estrategia del compromiso no se limita a los niños. Hermann Kahn la puso en marcha en la película Doctor Strangelove (“Dr. Strangelove or: How I Learned to Stop Worrying and Love the Bomb”), dirigida por Stanley Kubrick, en la que participaba el actor Peter Sellers. Alguno dijo que no hay suficientes palabras para describir la actuación de Peter Sellers en los tres papeles de un oficial británico, de presidente de los Estados Unidos y como Dr. Strangelove. Es muy divertido como oficial, con un acento especial, sombrío y neurótico como presidente y sencillamente loco como el Dr. Strangelove. Supongan que los Estados Unidos deciden terminar con todas las preocupaciones sobre las agresiones soviéticas de una vez y para siempre. Fabrica cientos de bombas de cobalto, las entierra en las Montañas Rocallosas (las Rocky Mountains), y les añade un contador geiger

XVI. Teoría de los juegos 431

extravagante. Si suenan las alarmas, las bombas de cobalto producen suficiente lluvia radioactiva como para eliminar toda vida humana sobre la faz de la tierra. El contador geiger es el disparador que hace explotar las bombas si se experimenta radiación proveniente de un ataque soviético. Ahora es posible desmantelar todas las demás defensas contra ataques nucleares; ya que los Estados Unidos tienen en su poder el elemento disuasivo final. En una versión mejorada denominada por Kahn la Máquina del Día-Final-Adelantado, el mecanismo disparador estaría de alguna manera equipada para detectar un amplio rango de actividades y responder en forma apropiada; podría ser programada, por ejemplo, para hacer estallar el mundo si los soviéticos invaden Berlín Oeste, o Alemania del Oeste, o a cualquiera – ahorrando a los Estados Unidos el costo de una defensa tanto convencional como nuclear. La Máquina del Día-Final-Adelantado no deja de tener problemas. En Doctor Strangelow fueron los rusos los que la construyeron. Deciden postergar el anuncio hasta el cumpleaños del Primer Ministro. Desafortunadamente, mientras esperan, un oficial lunático de la Fuerza Aérea Americana lanza una guerra nuclear contra la Unión Soviética. Esta Máquina no es completamente imaginaria. Consideren la situación inmediata después de que los Estados Unidos detectan el comienzo de un ataque nuclear supremo por la Unión Soviética. Supongan por caso que Estados Unidos carece de defensas, sólo la posibilidad de emprender represalias. La amenaza de las represalias puede paralizar un ataque, pero si el ataque se produce de cualquier manera, las represalias no protegerán a nadie. Inclusive, al incrementar la lluvia radioactiva, los efectos climatológicos y otros similares, morirán algunos americanos – así como millones de rusos y un número considerable de neutrales que tienen la desgracia de soportar la lluvia. Las represalias en tales situaciones son irracionales. Empero tal vez ocurrirían. Entre el “juro morir” y la aniquilación nuclear hay un amplio campo de situaciones donde las amenazas y el compromiso desempeñan un rol. Aún antes de que se inventaran los misiles nucleares, la guerra fue un juego de pérdidas para ambas partes. A otra escala hay otros ejemplos dentro de la misma lógica. Una riña en un bar empieza con dos parroquianos discutiendo sobre fútbol que termina con un muerto y el otro con una cuchilla en la mano y una expresión de aturdimiento. Desde cierto punto de vista, éste es un ejemplo claro de conducta irracional y no económica. El asesino inmediatamente se arrepiente de lo que hizo, y por lo tanto no puede haber actuado para maximizar su propio bienestar. Desde otro punto de vista, ha actuado dentro de un compromiso racional a la acción irracional – equivalente, a esta escala, a la máquina del día final en funcionamiento. Supongan que soy fuerte, furioso y que tengo mal genio con gente que no quiero. Me beneficio de esa reputación; la gente es cuidadosa de no hacer cosas que puedan ofenderme. En realidad golpear a alguien tiene sus costos, me pueden devolver el golpe y puedo terminar arrestado por agresión. Pero si tengo suficientemente mala reputación, puede que no tenga que agredir a nadie. A fin de mantener mi reputación, debo entrenarme como para ser de mal genio. Me digo a mí mismo, y se lo digo a los demás, que soy tal cual, que ese tipo de gente no deja a otros que lo presionen, etc. Gradualmente extiendo mi definición de “no presionarme” hasta que sea equivalente a “no hagan lo que no quiero”. Usualmente describimos a ésta como una personalidad agresiva, pero podría pensarse también como una estrategia deliberada racionalmente adoptada. Una vez adoptada, ya no soy libre de elegir la respuesta óptima a cada situación. He invertido demasiado en mi propia propia imagen como para echarme atrás. De la misma manera, los Estados Unidos, que han construido un

XVI. Teoría de los juegos 432

sistema de represalias masivas para disuadir ataques, no están libres de cambiar de opinión dentro de los diez minutos que pasan entre la detección de los misiles enemigos y el momento de disparar los suyos. El Dilema del Prisionero Dos hombres son arrestados por atraco. De ser condenados, recibirán una sentencia de cárcel de entre dos a cinco años; la duración dependerá de lo que recomiende el fiscal. Desgraciadamente el Fiscal del Distrito no tiene suficiente evidencia como para recomendar una condena. El FD pone a los criminales en celdas separadas. Primero habla con Joe. Le dice que si confiesa y Mike no lo hace, el FD retirará la acusación de robo dejándolo sólo con un tirón de orejas – tres meses por invadir propiedad privada. Si Mike también confiesa, el FD no puede retirar los cargos y pedirá al juez indulgencia; Mike y Joe obtendrán una sentencia de dos años cada uno. Si Joe se niega a confesar, el FD no será tan amigable. Si Mike confiesa, Joe será declarado culpable y el FD pedirá la máxima sentencia posible. Si ninguno confiesa, el FD no puede declararlos culpables del robo, pero presionará para obtener una sentencia de invasión de propiedad privada, resistencia a la autoridad y vagancia. Después de explicar todo esto a Joe, el FD va a la celda de Mike y mantiene la misma conversación con nombres invertidos. La matriz de pagos que enfrentan Joe y Mike es la siguiente, y Joe razona de la siguiente manera:

Mike C (Confesar) D (No confesar)

C (Confesar) 2 años, 2 años 3 meses, 5 años

Joe D (No Confesar) 5 años, 3 meses 6 meses, 6 meses

“Si Mike confiesa y yo no, me darán cinco años; si yo también confieso, me aplicarán dos años. Si Mike va a confesar, lo mejor que puedo hacer es también confesar. Si ninguno de los dos confiesa, me aplicarán una pena de 6 meses. Es una mejora considerable con respecto a la situación en que Mike se delata, pero puedo conseguir algo mejor: si Mike no habla y yo confieso, a mí me aplicarán solamente tres meses. Luego, si Mike se queda callado, voy a estar mejor confesando. En realidad, a mí me conviene confesar independientemente de lo que haga Mike.” Ambos piden a la guardia que llamen al FD para dictar sus confesiones. El juego tiene dos propiedades interesantes. 1) Introduce un nuevo concepto de solución. Cada uno de los criminales confiesa porque calcula, correctamente, que la confesión es mejor que el silencio sea lo que haga el otro criminal. Si una estrategia conduce a un mejor resultado sea lo que haga el otro jugador, decimos que es una estrategia dominante. Si los dos jugadores tienen estrategias dominantes, tenemos una solución del juego. 2) Ambos jugadores actuaron en forma racional y ambos terminan, como resultado, peor. Parece extraño que la racionalidad, definida como tomar la decisión que maximiza los objetivos individuales, resulte en que ambos terminen peor. Para muchos, el resultado del Dilema de los Prisioneros parecerá contrario a la intuición. Pero la racionalidad es un supuesto sobre los individuos y no sobre grupos.

XVI. Teoría de los juegos 433

El Dilema del Prisionero Repetido Muchas situaciones del mundo real implican juegos repetidos. Mike y Joe saldrán de la prisión, retomarán su “profesión” y serán apresados nuevamente. Cada uno sabe que si traiciona a su compañero esta vez, puede esperar que su compañero lo trate en forma similar la próxima vez, y luego deje de confesar. El argumento es persuasivo pero no está claro que sea correcto. Dejemos a Joe y Mike y sean dos personas que juegan un juego como el de la matriz de la página 432 cien veces. Para hacerlo más plausible, reemplacemos las sentencias de encierro de esta matriz por pagos positivos. Si ambos jugadores cooperan, obtienen $10 cada uno. Si cada uno traiciona al otro, no obtienen nada. Si uno traiciona y el otro coopera, el traidor gana $15 y el otro saca $5. Un jugador que traiciona a su compañero gana cinco pesos en el corto plazo, pero la ganancia probablemente no valga ese precio. La víctima responderá traicionando en la próxima ronda, y tal vez varias veces más. En balance, pareciera que ambos jugadores estarán mejor cooperando en cada jugada. Esta atractiva solución tiene un problema. Consideremos la última jugada del juego. Cada jugador sabe que, haga lo que haga, el otro no tendrá otra oportunidad para castigarlo. La última jugada, por lo tanto, es un dilema del prisionero común y corriente. La traición domina a la cooperación para ambos jugadores, luego ambos se traicionan y obtienen cero. Cada uno razonará: el otro me traicionará en la jugada centésima. Sabiendo esto, sé que no me importa un castigo por lo que yo haga en la jugada 99ª, porque haga lo que hiciere, el otro jugador me castigará en la próxima (y última) jugada. Luego yo lo traiciono en la jugada 99ª, y el otro, que hizo el mismo cálculo, me traiciona. Como sabemos que ambos nos vamos a traicionar en la jugada 99ª, no hay castigo por traicionarnos en la jugada 98ª. Como sabemos que nos traicionaremos en la jugada 98ª, no hay castigo por traicionarnos en la 97ª. Se despliega una cadena completa de jugadas; si somos racionales nos traicionamos cada uno desde la primera jugada, terminando con nada. Si hubiéramos sido irracionales y cooperado, habríamos terminado con miles de pesos3. Voto Mayoritario de Tres Personas Consideremos el simple juego de tres personas (Ana, Guillermo y Carlos) y $ 100. El dinero debe ser dividido por el voto mayoritario; cualquier asignación que reciba dos votos es ganadora. Pensemos en el juego como un largo período de negociación seguido por una votación. En la negociación, los jugadores sugieren divisiones y tratan de convencer a los otros. Cada jugador trata de maximizar su propio ingreso – su participación en los fondos. Guillermo comienza proponiendo a Ana que se dividan el dinero entre ambos, $50 para cada uno. A ella le parece una buena idea – hasta que Carlos propone una división de $60 para Ana y $40 para él. Carlos hace la oferta porque $40 es mejor que nada, y $60 es mejor que $50, de tal modo que Ana está encantada en cambiar de lado.

3 El argumento depende del supuesto de que los jugadores conocen cuántas jugadas tendrá el juego. Si lo jugamos por un número finito pero indefinido de movidas, la cooperación puede ser estable.

XVI. Teoría de los juegos 434

La negociación no ha terminado. Guillermo, que ahora está en el freezer, le sugiere a Carlos que le gustaría renovar su anterior propuesta con un jugador diferente; Carlos obtendrá $50, que es mejor que $40, y Guillermo tendrá $50, que es mejor que nada. Las negociaciones potenciales no tienen término. Cualquier división que se sugiera es dominada por alguna otra, y así sucesivamente. Veremos luego cómo se trata este problema en la teoría de los juegos, y nuevos conceptos necesarios. 2. Teoría de los Juegos no Cooperativos John Von Neumann y el economista Oskar Morgenstern se propusieron encontrar una solución general a todos los juegos, fueran éstos el ajedrez, el bridge, o el oligopolio. Esto no significaba aprender a jugarlos, sino a jugarlos en forma perfecta. Si se conoce cómo jugar un juego como un problema matemático explícito, los detalles de la solución de cada juego particular pueden ser dejados a otra persona. Desde este punto de vista, el ajedrez es un juego trivial. Las reglas especifican que, si ningún peón es movido y ninguna pieza es tomada luego de cuarenta jugadas, el juego termina empatado. Lo que significa que el número total de jugadas, y por lo tanto el número total de posibles juegos de ajedrez, es limitado – muy amplio pero finito. Para jugar ajedrez en forma perfecta, bastaría hacer un listado de todas las partidas de ajedrez, anotar en cuáles se gana, y luego jugarlas a partir de la última jugada, suponiendo en cada etapa que si un jugador hace una jugada que lo conduce a ser un ganador eventual la hará efectivamente. No es ésta una solución demasiado práctica. El número de jugadas posibles es mucho mayor que el número de atomos del universo (¡hallar suficiente papel para anotarlas sería difícil!). Pero los teóricos de los juegos no están interesados en este tipo de dificultades. Su objetivo es tener una idea de cómo sería resuelto un juego, y están dispuestos a darse una extensión ilimitada de tiempo para resolverlo. 2.1 Juegos Bi-Personales Normalmente imaginamos un juego de ajedrez como una serie de decisiones separadas: yo practico el 1er movimiento, usted responde, yo vuelvo a responder, y así sucesivamente. La jugada consiste en la elección de una estrategia que describa lo que hará cada jugador ante cada situación. La estrategia sería una descripción completa de cuál sería mi respuesta a cualquier sucesión de jugadas de mi oponente (y, en algunos juegos, a cualquier sucesión de eventos aleatorios, como la tirada de un mazo de cartas). Dado que una estrategia determina lo que haré en cualquier situación, jugar el juego – cualquier juego – consiste simplemente en que cada oponente elija una estrategia. Las decisiones son, efectivamente, simultáneas: aunque el otro puede observar mis jugadas a medida que las hago, no puede meterse dentro de mi cabeza y observar cómo he decidido jugar el juego. Una vez que ambas estrategias han sido elegidas, todo queda determinado. Se puede imaginar a ambos jugadores escribiendo sus estrategias y luego sentándose para observar cómo una máquina las ejecuta. El jugador Blanco hace la primera jugada, Negro responde mediante su respuesta pre-escogida, y así hasta que un jugador es declarado vencedor o el juego termina en un empate.

Visto en estos términos, cualquier juego bi-personal puede ser representado mediante una matriz de pagos como la de la pág. 432, aunque puede requerir un enorme número de filas y de columnas. Si el juego contiene elementos aleatorios, la célula de la intersección debe interpretarse

XVI. Teoría de los juegos 435

en términos de valor esperado a lo largo de varias jugadas del juego. En teoría de los juegos, esta forma descriptiva es llamada forma reducida del juego.

Morgenstern y Von Neumann, en Sea Girt, New Jersey

XVI. Teoría de los juegos 436

Ésta no es una forma demasiado útil cuando se juega un juego como el ajedrez, ya que no vale la pena invertir tiempo en enumerar por adelantado todas las cosas que el oponente podría hacer. Pero puede ser una forma útil de imaginarse en qué sentido los juegos tienen soluciones y en cómo encontrarlas. Qué es una solución para un juego bi-personal? La respuesta de Von Neumann es que una solución (para un juego bi-personal) es un par de estrategias y un valor del juego. La estrategia S1 le garantiza al jugador 1 que al menos ganará el valor V, la estrategia S2 le garantiza al jugador 2 que a lo sumo perderá V. V puede ser positivo, negativo o cero; la definición no hace supuestos acerca de cuál de los jugadores está en una posición más fuerte. Dos cuestiones que surgen: es ésta realmente una solución; es lo que haría un jugador inteligente? Si aceptamos la definición, tienen soluciones todo los juegos bi-personales? La solución de Von Neumann no abarca todo lo que un buen jugador trata de hacer. Ignora explícitamente lo que los jugadores de bridge llaman stealing candy from babies (robarles caramelos a los bebés) – seguir estrategias que funcionan mal contra buenos oponentes pero que explotan los errores de los malos. Que exista una solución para un juego depende de la estructura de su forma reducida. Consideremos la siguiente forma reducida:

Bill A B C I -4, +4 0, 0 -1, +1

II +2, -2 +1, -1 +2, -2 Ana

III +1, -1 0, 0 +4, -4 La celda central es la solución. Como Bill elige B, Ana hace lo correcto eligiendo II. Bill hace lo correcto eligiendo B, ya que cualquier otra elección le hace perder 2 en lugar de 1. El valor del juego es 0. Al elegir B, Bill se garantiza no perder más que 1; al elegir la estrategia II, Ana se garantiza ganar al menos 1. La estrategia es denominada minimax4 , y la solución un punto de ensilladura. Lamentablemente, no hay razón para esperar que todos los juegos tengan puntos de ensilladura. El juego Tijeras, Papel y Piedra es un ejemplo. Sin embargo, existe una solución de Von Neumann, como hemos visto. El truco consiste en permitir a los jugadores elegir no sólo estrategias puras tales como A, B, C ó Tijeras, Papel, Piedra, sino también estrategias mixtas. Una estrategia mixta es una mezcla de probabilidades de estrategias puras (p.e. 10% de A, 40% de B y 50% de C). La solución de Tijeras, Papel, Piedra como fue descripta es una especie de estrategia mixta (con igual probabilidad de que se siga cualquiera de las tres estrategias puras). Un jugador que siga esa estrategia mixta perderá, en promedio, cero, sea lo que haga su oponente. Un jugador cuyo oponente siga tal estrategia ganará, en promedio, cero. Luego la solución de Von Neumann es que cada jugador adopte esta

4 Desde el punto de vista de Bill, está minimizando el máximo monto que puede perder; actúa como si supusiera que haga lo que haga, Ana adoptará la estrategia correcta contra él. Si eligiera A, Ana podría elegir II y él perdería 2, etc. Un razonamiento similar es válido para Ana.

XVI. Teoría de los juegos 437

estrategia. No solamente es una solución sino la única solución; desvíos de esta estrategia harán que su oponente gane más frecuentemente que lo que que pierde. Un juego de suma cero es un caso especial. Este es un caso interesante, porque los intereses de los jugadores están directamente en conflicto. No sólo contribuyó en este campo. También desarrolló una estructura sólida para la mecánica cuántica, estudió lo que hoy se conoce como álgebras de Von Neumann, y fue uno de los pioneros de la ciencia de la computación. Fue miembro de la Comisión Nacional de Energía Atómica, y asiduo visitante del Proyecto de Misiles en el Centro de Los Alamos5. 2.2 Juegos n-Personales Retomemos el hilo conductor. Para juegos con más de dos jugadores los resultados no son tan claros. Vamos a recordar algunos conceptos básicos. Sea un juego n-personal jugado en forma repetida, por un largo plazo. Usted va observando lo que hacen los demás y altera sus jugadas de forma acorde. Actúa presuponiendo que lo que ud hace no afecta lo que ellos hacen, tal vez porque el efecto de sus acciones en el juego completo es despreciable. Usted va alterando sus acciones hasta que... no hay más cambios. Los demás jugadores hacen lo mismo. Se alcanza el equilibrio. Esta solución se denomina equilibrio de Nash y es una generalización del matemático Nash de una idea que inventó Antoine Augustin Cournot en el siglo XIX (1801-1877). En 1830 Cournot6 había estudiado el resultado probable cuando dos empresas compiten en el mismo mercado. Muchos economistas habían tratado luego de analizar el resultado en otros contextos específicos de interacción humana, pero con anterioridad a la teoría de los juegos no había ninguna “caja de herramientas” que permitiera a los estudiosos el acceso a métodos generales y rigurosos de analizar diversas formas de interacción estratégica. Hoy en día la situación ha cambiado, y las revistas de economía abundan en análisis de distintas formas de interacción gracias a la teoría de los juegos que condujo a John Nash al premio Nobel de economía en 1994. La teoría de los juegos no cooperativos trata de situaciones en las que las partes no pueden suscribir acuerdos obligatorios para todos. Inclusive en juegos muy complicados, con muchos jugadores que tienen muchas estrategias, es posible describir el resultado por medio de la solución de Nash. John Nash demostró que hay por lo menos un resultado estable, resultado que ningún jugador puede mejorar de por sí eligiendo una estrategia diferente cuando todos los

5 El Centro para Estudios No Lineales fue creado por el entonces Director del Laboratorio Don Kerr (1980) en respuesta a la ciencia emergente no lineal de los solitons, sistemas dinámicos y teoría del caos y al rol histórico importante desempeñado por los científicos de Los Alamos, en particular las simulaciones numéricas de equirrepartición de la energía de Fermi-Pasta-Ulam realizadas en 1955. Otros adelantos notables se obtuvieron a fines de los 70 por Mitchell Feigenbaum en base a trabajos anteriores de Stan Ulam, John von Neumann, Mark Kac, Nick Metropolis, Paul Stein y Stephen Smale. 6 Se considera a Cournot como el matemático que comenzó la sistematización formal de la economía. Fue el primero en utilizar funciones matemáticas para describir conceptos económicos como la demanda, la oferta o el precio. Analizó los mercados monopolistas, estableciendo el punto de equilibrio del monopolio, llamado el punto de Cournot. También estudió el duopolio y el oligopolio. Sus aportaciones tuvieron mucha influencia sobre Jevons, Walras y Marshall, de los que puede ser considerado un precursor. Contribuyó notablemente a la ciencia estadística. Entre sus obras cabe destacar "Investigaciones acerca de los principios matemáticos de la teoría de las riquezas" (1838), "Exposition de la théorie des chances et des probabilités" (1843), "Principios de la teoría de las riquezas" (1863) y "Revue sommaire des doctrines économiques" (1877).

XVI. Teoría de los juegos 438

jugadores tienen expectativas correctas sobre las estrategias que seguirán los demás. Aunque cada uno actúe racionalmente, el equilibrio de Nash demuestra que la interacción estratégica puede conducir a menudo a la irracionalidad global: guerras comerciales o una excesiva emisión de contaminantes que amenazan al contexto global, son ejemplos en la esfera internacional. El equilibrio de Nash también ha sido importante en ecología evolutiva – que describe a la selección natural como una interacción estratégica dentro y entre especies. Consideren el juego de manejar un auto, donde elegir una estrategia consiste en decidir de qué lado de la ruta voy a manejar. En Argentina estamos en un equilibrio de Nash. La situación es estable, y llegaría a ser estable aunque no hubiera policía de tráfico para implementarla. En Inglaterra todos conducen por la izquierda. Éste también es un equilibrio de Nash. Los turistas extranjeros que manejan en Inglaterra suelen pasarse automáticamente al carril derecho y descubren su error cuando encuentran un conductor inglés enfrente – y se produce el crash. Si todos los conductores ingleses se pasaran a conducir por la derecha todos podrían estar mejor. Pero cualquier inglés que lo quisiera hacer por iniciativa propia podría terminar mucho peor. Un equilibrio de Nash es estable contra cualquier acción individual aún cuando conduzca a un resultado indeseable. En muchos juegos los jugadores carecen de información completa sobre los objetivos de los demás. Si por ejemplo, el gobierno quiere desregular a una firma pero ignora su situación de costos – que sí tiene la firma – estamos en presencia de un juego con información incompleta. John Harsanyi – otro de los ganadores del premio Nobel de economía 1994 – demostró cómo podía ser superada esta dificultad que se había vuelto intratable para los teóricos de los juegos. De esta forma sentó las bases analíticas para tratar distintos problemas vinculados con la economía de la información. Estos problemas abarcan desde los contratos con los accionistas a la administración de las empresas en países en desarrollo. Un problema con el concepto de equilibrio de Nash es que puede haber muchos equilibrios en los juegos no cooperativos. En tales casos puede ser difícil – tanto para los jugadores como para el analista – predecir los resultados. Un tercer ganador del premio Nobel de 1994, Reinhard Selten sentó las bases de un programa de investigación que excluyó a los equilibrios improbables o irrazonables, mediante su concepto de “perfección”. Se da el caso de que algunos equilibrios de Nash son tales que están basados en amenazas o promesas pensadas a fin de que otros jugadores elijan ciertas estrategias. A veces son “vacías”, porque no resulta del interés del emisor llevarlas a cabo si se diera la situación. Selten pudo excluir estas amenazas o promesas lo que permite hacer predicciones más fuertes sobre el resultado (llamado equilibrio perfecto).

John F. Nash, Jr. (1928- )

2.3 Juegos Bi-Personales de suma cero: el teorema Minimax En 2.1 vimos que von Neumann demostró en 1928 la existencia general de soluciones minimax en estrategias randomizadas para juegos bipersonales finitos (es decir, donde cada jugador dispone de un número finito de estrategias) de suma cero, donde ∏ij

1= −∏ij2. Aquí ∏ij representa el pago

que recibe el jugador fila si juega su estrategia i y el jugador columna su estrategia j. También hemos visto que los juegos de suma constante son equivalentes a juegos de suma cero. Veremos

XVI. Teoría de los juegos 439

una demostración de este teorema mediante el teorema de dualidad de la programación lineal7 , adelantándonos así a uno de los puntos del programa. Un problema de programación lineal (LP) implica la optimización de una función objetivo lineal, sujeta a igualdades lineales y a restricciones de desigualdad. Más formalmente, un problema de LP determina la forma de alcanzar el mejor resultado posible (como por ejemplo el máximo beneficio, o el costo más bajo) sujeto a los requerimientos representados por ecuaciones o inecuaciones lineales. En otros términos, dado un polítopo8 (por ejemplo un polígono o un poliedro) y una función real afín:

(la función objetivo), el fin es hallar el punto del polítopo en el que la función alcanza su menor (o mayor valor). Tal punto podría no existir, pero si existe puede ser encontrado buscando en los vértices del polítopo. Los problemas de LP son problemas que pueden ser expresados en forma típica:

Maximizar c’x sujeto a Ax≤ b donde x≥0.

x representa a un vector de n variables, c y b son vectores de coeficientes (el primer vector tiene n componentes y el segundo m) y A es una matriz de coeficientes de m filas por n columnas. La función objetivo, en este caso, es c’x y debe ser maximizada 9. Las inecuaciones Ax≤ b son las restricciones estructurales que definen el polítopo convexo sobre el cual debe ser maximizada la función objetivo. En adjunto podemos visualizar un polítopo bi-dimensional definido por tres inecuaciones (la “feasible region”). Geométricamente, las restricciones lineales definen un poliedro convexo, denominado región factible (o conjunto factible). Como la función objetivo también es lineal, y por lo tanto convexa, todos los óptimos locales son automáticamente óptimos globales (por el teorema de KKT). El valor de la función objetivo es igual al máximo alcanzado por dicha función en un problema de máximo, e igual al mínimo alcanzado por dicha función en un problema de mínimo. La linealidad de la función objetivo también implica que el conjunto de soluciones óptimas es la cápsula convexa10 de un conjunto finito de puntos, habitualmente de uno solo. Hay dos casos en que no se puede hallar una solución óptima. Primero, si las restricciones se contradicen entre sí (por ejemplo, x≥2 y x≤1). En este caso, el conjunto factible es vacío y se dice que el LP no es factible. Segundo, el poliedro puede no estar acotado en la dirección de la función objetivo (por ejemplo: maximizar x1+3x2 sujeto a x1≥0, x2≥ 0, x1+x2≥10), en cuyo caso no hay solución óptima dado que podrían construirse “soluciones” con valores arbitrariamente elevados de la función objetivo. Pero exceptuando estas condiciones patológicas, el óptimo será siempre alcanzado en un vértice del poliedro. Empero, el óptimo no será necesariamente único: es posible que se obtenga todo un conjunto de soluciones óptimas que cubran 7 Véase M. Intriligator, Optimización matemática y teoría económica, Prentice-Hall Internacional, Capítulo 5 y 6. 8 En geometría politopo significa, en primer lugar, la generalización a cualquier dimensión de un polígono bidimensional, y un poliedro tridimensional. 9 La notación c’ indica que estamos utilizando al vector traspuesto de c, luego c’x=∑j=1

n cjxj. 10 La cápsula convexa de un conjunto de puntos X en un espacio vectorial real V es el mínimo conjunto convexo de V que contiene a X.

XVI. Teoría de los juegos 440

un borde o una cara del poliedro, o aún a todo al poliedro (lo que sucedería si la función objetivo fuera constante). Para todo LP existe un problema, denominado su dual:

Minimizar y’b sujeto a yA≥ c y≥0

donde, como se observa, el vector y es usado en lugar del vector x. Obsérvese que ambos problemas, el primal y su dual, tienen estructuras simétricas: el primal es de maximización, el dual de minimización. Los signos de desigualdad de las restricciones estructurales del primal son de “menor o igual”, mientras que los del problema dual son de “mayor o igual”. La matriz estructural A se halla post-multiplicada por x en el primal. Si esta matriz tiene m filas y n columnas, al pre-multiplicarla por y en el dual ello hará que el número de componentes de y tenga que ser igual a m. Finalmente, en ambos problemas, se mantienen las condiciones de no-negatividad de las variables11 . El primer teorema fundamental de la programación lineal establece que condición necesaria y suficiente para la existencia de una solución en un LP, es que los conjuntos de oportunidad -tanto del problema primal como de su dual- sean no vacíos (Teorema de existencia). Un programa lineal también puede no estar acotado o carecer de factibilidad. La teoría de la dualidad nos dice entonces que si el primal no está acotado el dual no será factible, en virtud del teorema débil de dualidad. Asimismo, si el dual no está acotado, el primal no tendrá factibilidad. Pero también es posible que ambos problemas, el dual y el primal, carezcan de factibilidad. El segundo teorema fundamental es el teorema de dualidad: Condición necesaria y suficiente para que un vector factible sea solución de un LP, es que exista un vector factible para el problema dual en el cual los valores de las funciones objetivo de ambos problemas sean iguales. Hay dos ideas fundamentales en la teoría de la dualidad. 1) El dual del dual de un problema de LP lo convierte en el problema original (o primal). 2) Además, toda solución factible de un LP proporciona una cota al valor de la función objetivo de su dual. La versión débil del teorema de dualidad establece que el valor de la función objetivo del dual de cualquier solución factible siempre es mayor o igual que el valor de la función objetivo del primal en cualquier solución factible. La versión fuerte del teorema de dualidad afirma que si el primal tiene una solución óptima x* entonces el dual también la tendrá, y*, tal que c’x*=y*’Ax*=y*’b. Esta versión a veces es denominada teorema de equilibrio de la LP. Llegamos ahora a una tercera proposición importante, que establece que es posible obtener una solución del dual si se conoce una solución óptima del primal, utilizando el teorema de holgura complementaria: supóngase que x=(x1,...,xn) es factible en el primal e y=(y1,...,ym) es factible en el dual. Sean (w1,...,wm) las variables slack12 correspondientes al primal, y (z1,....,zn) las variables slack correspondientes al dual. Luego x e y son óptimas en sus problemas respectivos si y sólo si xjzj=0 (j=1, ..., n), wiyi=0 (i=1, ...,m).

Por lo tanto, si la i-ésima variable slack del primal no es cero, la i-ésima variable del dual es igual a cero. También, si la j-ésima variable slack del dual no es cero, entonces la j-ésima variable del primal es igual a cero. Esto es todo lo que necesitamos por ahora. Volvamos al problema estratégico. Recordemos que habíamos denotado como p1 (p2) al vector de probabilidades aplicado por el jugador 1 (2) sobre sus estrategias puras de fila (columna). El jugador 1 buscará el más alto pago esperado

11 Hay una segunda forma de trabajar con un problema de LP, que es a través de la forma canónica, en la cual todas las desigualdades son transformadas en igualdades. Dejaremos este punto para más adelante. 12 Slack se traduce como holgura: las correspondientes restricciones se cumplen como igualdades si y sólo si la variable slack pertinente es igual a 0.

XVI. Teoría de los juegos 441

garantizado, para lo cual elegirá estas probabilidades a fin de maximizar el pago mínimo esperado. Este pago mínimo puede ser escrito por medio de desigualdades lineales: p1∏e’j= ∑i=1

mpi1∏ij ≥∏1(p1), j=1, ...,n13

o lo que es lo mismo: p1∏ − ∏1(p1)1≥0 (1 es un vector fila de unos). Luego, el problema del jugador 1 puede expresarse como un problema de LP: maxp1 ∏1(p1) bajo las restricciones: p1∏ − ∏1(p1)1≥0 p11’= 1 p1≥0. Para el jugador 2, que minimiza el máximo, se tendrá:

minp2 ∏2 (p2) ∏p2− 1’∏2 (p2)≥0 1p2=1 p2≥0. Estos dos problemas son duales el uno del otro (v. cuadro siguiente).

p12 p2

2 ...... pn2 −∏2(p2)

p11 ∏11 ∏12 ...... ∏1n 1 ≤ 0

p21 ∏21 ∏22 ...... ∏2n 1 ≤ 0

....... ....... ...... ....... ........ ........ ....... pm

1 ∏m1 ∏m2 ...... ∏mn 1 ≤ 0 −∏1(p1) 1 1 ...... 1 1 =1-∏2(p2)→máx;

e.d. mín ∏2(p2) ≥ 0 ≥ 0 ...... ≥ 0 =1-∏1(p1)→mín;

e.d. max ∏1(p1)

Para que la suma de probabilidades sea la unidad, se define: pm

1= 1 −∑i=1m-1pi

1 pn

2= 1 −∑j=1n-1pj

2. Dado que existen vectores factibles en ambos conjuntos de oportunidades, es decir, los vectores unitarios, según el teorema de existencia de la programación lineal existen soluciones p1*, p2* de ambos problemas. El mismo teorema de dualidad conduce a que: 13 Como antes, e’j es el vector j de la matriz unidad (es decir, una matriz cuadrada cuyos elementos de la diagonal principal son unos y todos los demás ceros) escrito como fila, Por convención hacemos e’1=(1,0,....,0), etc.

XVI. Teoría de los juegos 442

∏1(p1*) = maxp1 ∏1(p1)= V = minp2 ∏2(p2) = ∏2(p2*) donde V es el valor del juego. Hemos arribado así a la conclusión de que el teorema de dualidad de la programación lineal implica el teorema minimax de la teoría de los juegos. Pero hay otra implicación adicional. El teorema de holgura complementaria implica que: O bien se tiene ∑i=1

mpi1*∏ij= V o pj

2*=0, j=1,2,...,n. O bien, ∑j=1

n ∏ij pj2*= V o pi

1*=0, i=1,2,..., m. A estos resultados se los conoce habitualmente como teorema fuerte del minimax. Por ejemplo, si el pago esperado por 1 es mayor que el valor del juego para una determinada estrategia pura del jugador 2, entonces 1 juega esta estrategia con probabilidad cero. En un juego estrictamente determinado, en el cual el juego presenta un punto de ensilladura (como se vio en página 83), las estrategias óptimas mixtas asignan probabilidad igual a uno a las estrategias puras en el punto de ensilladura, es decir que los vectores de estrategia mixta óptima son vectores unitarios. En realidad, el número de elementos no nulos en los vectores de estrategia mixta óptima no superará al mínimo de los números de estrategias puras de que disponen los jugadores. Cuando los jugadores emplean sus estrategias óptimas no revelan a sus oponentes la estrategia real que van a emplear sea cual fuere la forma de jugar el juego. La estrategia es seleccionada mediante un mecanismo de probabilidades empleando las probabilidades óptimas (por ejemplo, mediante una moneda, arrojando dados, una tabla de números aleatorios, etc.) lo que hace imposible al rival conocer la estrategia real que será usada en la partida. Si pudiese hacerlo, podría explotar este conocimiento en beneficio propio. Sin embargo, el oponente nunca podrá emplear información alguna partiendo de las probabilidad óptimas empleadas en un juego bien jugado. Hay una solución mucho más simple, que se puede obtener en forma gráfica, cuando un jugador (por ejemplo el 1) dispone sólo de dos estrategias. Tomemos como ejemplo el siguiente juego que no es estrictamente determinado:

Jugador 2 Mínimo de fila 6 -2 3 -2 Jugador

1 -4 5 4 -4 Máx de columna 6 5 4

En la figura siguiente, el eje horizontal mide p2

1, probabilidad de que el jugador elija su segunda estrategia, a saber la segunda fila de la matriz. Como p1

1= 1 – p21, los puntos 0 y 1 corresponden a

las dos estrategias puras de elegir la primera y la segunda fila, respectivamente. Verticalmente medimos el pago al jugador 1, y cada una de las líneas en color rojo se obtiene suponiendo que el oponente (2) seleccionará una de sus estrategias puras. Así, si 2 elige la primera columna, el pago del jugador 1 es igual a 6 si elige la primera fila, (p2

1=0) y –4 si elige la segunda fila (p21=1),

representados como 6 de la ordenada al origen del lado izquierdo del gráfico y el –4 de la ordenada al origen del lado derecho. La recta que une ambos puntos representa lo que implican los pagos de todas las estrategias mixtas. Como el jugador 1 se pone en el peor de los mundos posibles, el único lugar geométrico que le queda a 1 es la línea roja de trazo grueso con forma de V invertida. Los puntos de este lugar geométrico representan el menor pago esperado de 1 a medida que cambia su probabilidad de elegir la fila 2. Maximizar el pago esperado requiere que

XVI. Teoría de los juegos 443

p21*=8/17. De esta manera su primera estrategia será elegida con probabilidad 9/17. El Valor del

juego será V=-2(9/17)+5(8/17) = 6(9/17) – 4(8/17) = 22/17. Pago del jugador 1 6 5 4 3 0 El jugador 1 elige su estrategia 2 El jugador 1 p2

1*=8/17 1 p21

elige su estrategia 1 -2 - -4 Antecedentes La primera aplicación conocida en Teoría de los Juegos se debe a Zermelo14 (1913) que demostró que el ajedrez es un juego estrictamente determinado. Lo interesante del caso es que no construyó una prueba explícita de las estrategias “correctas”; en realidad, hasta el día de hoy ignoramos si el resultado correcto del ajedrez es que ganen las blancas, las negras, o un empate. La condición sine qua non de la demostración de Zermelo es que se trate de un juego bi-personal de suma cero con información perfecta. Posteriormente, en 1953, H. W. Kuhn reemplazaría la noción de jugadas “correctas”, racionales desde el punto de vista individual, por la de equilibrio. Demostrará que todo juego de n personas con información perfecta tiene equilibrio en estrategias puras. 2.4 Juegos Bi-Personales de suma no cero Cuando no es cierto que el pago a un jugador es el opuesto del pago al otro, existe la posibilidad de ganancias o pérdidas mutuas. Al no hallarse en una situación que involucre un conflicto total, existe una oportunidad para las amenazas, los engaños, la comunicación de intenciones, junto con fenómenos de aprender y enseñar. En un juego de suma cero es absurdo revelar la propia estrategia por adelantado, pero en un juego de suma no cero puede resultar a veces deseable hacerlo para lograr la coordinación con el otro jugador o influir sobre él para lograr un resultado deseable.

14 Zermelo, E. 1913, Über eine Anwendung der Mengenlehre auf die theorie des Schachspiels, Proceedings of the Fifth International Congress of Mathematicians 2, 501-4. V. R. Aumann, Game Theory, The New Palgrave: A Dictionary of Economics, Vol. 2, edited by J. Eatwell, M. Milgate, and P. Newman, Macmillan, London, 1987.

XVI. Teoría de los juegos 444

La Batalla de los Sexos es un ejemplo muy simple de un típico juego de suma no cero. En este caso el marido y su esposa desean salir por la noche, y han decidido ir ya sea a un ballet o a una partida de boxeo. Ambos prefieren estar juntos que ir por separado (son un matrimonio bien avenido). El marido preferiría ir a la partida de boxeo, pero si tiene que ir solo prefiere acompañar a su esposa al ballet (¡lo que se dice un buen esposo!). A la esposa le gustaría ir al ballet, pero, bueno, haría un sacrificio para acompañar a su marido a presenciar la partida de boxeo en lugar de ir sola al Teatro Colón. La matriz de pagos es la siguiente:

Marido Partida de boxeo Ballet

Partida de Boxeo 2, 3 1, 1 Esposa Ballet 1, 1 3, 2

Los pagos de la esposa están representados por el primer elemento de cada par ordenado de esta matriz de pagos, mientras que los del esposo están representados por el segundo elemento. En esta matriz se observa que la situación representada no corresponde a un conflicto estrictamente competitivo. Ambos tienen interés común en estar juntos antes que ir a los espectáculos en forma separada. Pero existe un interés opuesto, en la medida que la esposa prefiere ir al Teatro Colón en tanto que el esposo prefiere hacerlo al Luna Park. Ya hemos visto en Introducción a la Optimización y a la teoría de los juegos cómo Melvin Dresher y Merrill Flood realizaron en 1960 un experimento basado en el Dilema de los Prisioneros, que se ha convertido en un ejemplo canónico de la teoría de los juegos de suma no cero no cooperativos. Hay muchísimas situaciones importantes en la esfera social, económica y política en las cuales se presentan las paradojas de ese dilema. Un ejemplo económico es la elección entre libre comercio y proteccionismo. Todos los países salen ganando con el libre comercio; sin embargo, un único país, en la situación de libre comercio, puede mejorar su propia situación económica mediante la imposición de tarifas. Douglas Richard Hofstadter (nacido en 1945) es un científico, filósofo y académico estadounidense15. Es probablemente mejor conocido por su libro Gödel, Escher, Bach: un Eterno y Grácil Bucle (Gödel, Escher, Bach: an Eternal Golden Douglas Hofstadter (1945- ) 15 Hofstadter es políglota; pasó algunos años en Suecia a mediados de los años 1960 en donde aprendió sueco. Además de inglés, su lengua materna, habla italiano, francés y alemán; su conocimiento de estos idiomas se puede atribuir en parte al haber pasado un año de su juventud en Ginebra. También habla un poco de ruso: tradujo partes de GEB al ruso, y publicó una traducción en verso de Eugene Onegin de Alexander Pushkin. En Le Ton beau de Marot (escrito en memoria de su última esposa Carol) se auto-describe como un "pilingüe" (entendido en 3,14159... idiomas) y "oligoglot" (hablante de pocos idiomas). Entre sus intereses están la música, los temas de la mente, la creatividad, la conciencia, la autorreferencia, la traducción, y los juegos matemáticos. En 1979 publicó GEB, un voluminoso libro que se convirtió en un sorprendente éxito de ventas donde se anudan la lógica matemática, la biología, la psicología y la lingüística en torno al fenómeno de la autorreferencialidad. Publicó, en colaboración con Daniel Dennett, The Mind I: Fantasies and Reflections on Self and Soul (1981) y Metamagical Themas en 1985. Ley de Hofstadter: "Hacer algo te va a llevar más tiempo de lo que piensas, incluso si tienes en cuenta la ley de Hofstadter."

XVI. Teoría de los juegos 445

Braid, denotado como GEB) que fue publicado en 1979, y ganó el Premio Pulitzer en 1980 por no-ficción general. Este libro ha inspirado a miles de estudiantes a comenzar sus carreras en computación e inteligencia artificial. Entre los trabajos publicados en la web les recomiendo su columna escrita en Scientific American, cuando asumió el puesto dejado vacante por Martin Gardner que escribía allí su columna "Mathematical Games" pasando en 1981-1983 a escribir una columna titulada Metamagical Themas (un anagrama de "Mathematical Games"). Una de las ideas que allí introdujo fue el concepto de “Reseñas de Este Libro”, que no es otra cosa que un libro que sólo tiene reseñas cruzadas de sí mismo e implementado on-line. Otra de las columnas de Hofstadter se refería a los efectos dañinos causados por el lenguaje sexista. A Hofstadter se debe una frase que tiene una conexión directa con este dilema: not devoting any time or energy to pressing global issues such as the arms race, famine, pollution, diminishing resources, and so on, saying ‘Oh, of course I’m very concerned—but there’s nothing one person can do.’ (Metamagical Temas). Y el hecho es que los problemas más acuciantes que se presentan a la humanidad se derivan de la falta de conciencia de los problemas que traen aparejados fenómenos como el cambio climático, la pobreza y la contaminación, en los cuales este tipo de conducta es muy frecuente: cuando se decide lo mejor por hacer en una situación estratégica, normalmente es importante predecir lo que harán los demás. Éste no es el caso presente. Para facilitar la lectura, escribiremos nuevamenta la matriz de pagos de un dilema del prisionero:

C (cooperar) D (defeccionar) C (cooperar) 3, 3 0, 4

D (defeccionar) 4, 0 1, 1

Si se supiera que el otro prisionero no hablará, su mejor movida es la de traicionarlo en lugar de recibir una sentencia menor. Si usted sabe que el otro lo traicionará, su mejor movida es traicionarlo, porque recibe una sentencia inferior que si se mantiene en silencio. La traición es la estrategia dominante. Como todos razonan de la misma manera, todos recibirán un menor pago que si se mantuvieran en silencio. La racionalidad juega un rol peor que si el otro se hubiera mantenido en silencio. En lenguaje técnico, esto demuestra que en un juego que no es de suma cero un equilibrio de Nash no constituye necesariamente un óptimo de Pareto. La necesidad de comunicación y coordinación es evidente, puesto que en estos ejemplos el comportamiento individualmente racional puede conducir a resultados inferiores para todos los individuos. Ha existido una suerte de fascinación universal con el dilema de los prisioneros, lo cual se debe a que representa en forma cruda y transparente el hecho amargo de que cuando los individuos persiguen su propio interés, el resultado puede ser un desastre para todos. El principio tiene docenas y docenas de aplicaciones, grandes y pequeñas, en la vida cotidiana. La gente que no coopera y actúa en pos de su propio beneficio mutuo no es necesariamente estúpida o irracional; pueden estar actuando de modo perfectamente racional. Cuanto antes aceptemos esto, más rápido llegaremos a diseñar un esquema de compromiso social para favorecer la cooperación. Un paso en tal sentido que podría ser de amplia aplicación, es disponer de un mecanismo para la aplicación de acuerdos voluntarios. ‘Recen por el bienestar de los gobiernos, sin cuya autoridad los hombres se tragarían a todos los hombres con vida’ (Ética de los Padres, III:2, cit. por R. Aumann). Sería suficiente que el mecanismo estuviera disponible; una vez disponible, los jugadores estarían motivados naturalmente a utilizarlo. Si pueden lograr un acuerdo ejecutable para forzar la cooperación (C,C), sería estúpido terminar en (D,D). Éste ha sido el motivo que motivó la definición de un juego cooperativo. 2.5 El Teorema de Nash de 1950

XVI. Teoría de los juegos 446

Puntos de Equilibrio en juegos n-personales Por John F. Nash, Jr.* Princeton University, Comunicación de S. Lefschetz, Noviembre 16, 1949 (traducción propia). “Podemos definir el concepto de un juego de n-personas en el que cada jugador dispone de un conjunto finito de estrategias puras y en el cual un conjunto definido de pagos a los n jugadores corresponde a cada n-upla de estrategias puras, cada una de las cuales es adoptada por cada jugador. Para las estrategias mixtas, que constituyen distribuciones de probabilidad sobre las estrategias puras, las funciones de pago son las expectativas de los jugadores, que se transforman en formas multilineales en las probabilidades con las cuales los distintos jugadores juegan sus diferentes estrategias puras. Toda n-upla de estrategias, una por cada jugador, puede ser considerada como un punto del espacio producto obtenido multiplicando los n espacios estratégicos de los jugadores. Una n-upla de estrategias tal contrarresta a otra si la estrategia de cada jugador en la n-upla contrarrestante da lugar a la mayor expectativa del jugador en contra de las n-1 estrategias de los demás jugadores en la n-upla contrarrestada. Una n-upla que se contrarresta a sí misma es denominada un punto de equilibrio. La correspondencia de cada n-upla con el conjunto de n-uplas contrarrestantes da lugar a un mapa de uno-a-varios del espacio producto en sí mismo. A partir de la definición de contrarrestar vemos que el conjunto de puntos contrarrestantes de un punto es convexo. Por continuidad de las funciones de pago sabemos que el grafo del mapa es cerrado. Esto significa lo siguiente: Si P1, P2, ..., y Q1,Q2, ..., Qn, ... son sucesiones de puntos en el espacio producto, si Qn→Q, Pn→P y Qn contrarresta a Pn, entonces Q contrarresta a P. Como el grafo es cerrado y la imagen de cada punto dada por el mapa es convexa, inferimos por el teorema de Kakutani1 que el mapa tiene un punto fijo (es decir, un punto contenido en su imagen). Luego existe un punto de equilibrio. En el caso de juegos bi-personales de suma cero el “teorema principal” y la existencia de un punto de equilibrio son equivalentes. En ese caso, dos puntos de equilibrio cualesquiera conducen a las mismas expectativas para los agentes, pero éste no es necesariamente el caso general. * El autor agradece al Dr. David Gale por su sugerencia de usar el teorema de Kakutani a efectos de simplificar la demostración y a A.E.C. por su apoyo financiero. 1 Kakutani, S., Duke Math. J., 8, 457-459 (1941).” Ésta es la famosa comunicación de Nash, incluida en los Proceedings de la National Academy of Sciences USA (vol. 36, 1950). Este paper le valdría luego ganar el premio Nobel de Economía 1994. Para su demostración, como hemos visto, apela al teorema de punto fijo de Kakutani, que es aplicable en el caso de mapas punto a conjunto. Suministra condiciones suficentes para que el mapa, definido sobre un subconjunto convexo y compacto del espacio euclídeo, tenga un punto fijo, es decir un punto mapeado a un conjunto que lo contiene. El teorema de punto fijo de Kakutani es una generalización del teorema de punto fijo de Brouwer. Este último teorema de punto fijo es un resultado fundamental de la topología que demuestra la existencia de puntos fijos de funciones continuas definidas sobre subconjuntos compactos y convexos del espacio euclídeo. El teorema de Kakutani extiende este resultado a mapas punto a conjunto. El teorema fue demostrado por Shizuo Kakutani en 194116 tal como es mencionado por John Nash, y aplicado por él mismo en el teorema de 1950. Luego tuvo extensas aplicaciones en teoría de los juegos y en economía17 . 16 Kakutani, Shizuo (1941). "A generalization of Brouwer’s fixed point theorem". Duke Mathematical Journal 8 (3): 457–459. 17 V. Border, Kim C. (1989). Fixed Point Theorems with Applications to Economics and Game Theory. Cambridge University Press.

XVI. Teoría de los juegos 447

Los años 50 fueron un período excitante en teoría de los juegos. La disciplina había salido del cascarón y empezó a ser testeada. En Princeton, Nash asentaba los fundamentos de una teoría general no cooperativa; como veremos luego, también lo hizo para los juegos cooperativos. Lloyd Shapley definió el valor de los juegos de coaliciones, dio inicio a la teoría de los juegos estocásticos, inventó en forma conjunta con D.B. Gillies el núcleo, y, con John Milnor, desarrolló los primeros modelos de juegos con jugadores distribuídos en forma continua; también hubo descubrimientos de Harold Kuhn y Al Tucker (que descubrió el dilema del prisionero)18 . El teorema de Kakutani afirma lo siguiente: “Sea S un subconjunto no vacío, compacto y convexo de algún espacio euclídeo Rn. Sea φ: S → 2S (conjunto potencia de S) un mapa de S con un grafo cerrado y la propiedad de que φ(x) es no vacío y convexo para todo x ∈S. Luego φ tiene un punto fijo.”19 Algunas definiciones básicas: un mapa φ del conjunto X al conjunto Y es una regla que asocia a uno o más puntos de Y con cada punto de X. Formalmente puede ser visto como una función desde X al conjunto de subconjuntos de Y, lo que se escribe como φ: X→2Y. Grafo cerrado: una función de punto a conjunto ó mapa φ: X→2Y tiene un grafo cerrado si el conjunto {(x,y)| y ∈φ(x)} es un subconjunto cerrado X×Y en la topología producto. Punto fijo: Sea φ: X→2X una función de punto a conjunto. Luego a ∈ X es un punto fijo de φ si a ∈ φ(a). A estos mapas se los denomina con frecuencia correspondencias. Ejemplo Sea f(x) una función punto a conjunto definida en el intervalo cerrado [0, 1] que mapea un punto x en el intervalo cerrado [1−x/2, 1−x/4]. Luego como satisface todos los supuestos requeridos por el teorema debe tener puntos fijos. En el diagrama, todo punto en la bisectriz del plano que cruza al grafo de la función (grisado) es un punto fijo, luego de hecho en este caso particular hay una infinidad de puntos fijos. Por ejemplo, x = 0.72 es un punto fijo ya que 0.72 ∈ [1−0.72/2, 1−0.72/4]. Teoría del equilibrio general En GE el teorema de Kakutani ha sido usado para demostrar la existencia de un conjunto de precios que en forma simultánea igualan a la oferta con la demanda en todos los mercados20. En 18 Para todo estos detalles, v. R. Aumann, ob.cit. 19 A partir de un conjunto de 3 elementos, se pueden armar 23 conjuntos con esos tres elementos. En forma similar, vemos que hay 2n subconjuntos a partir de un conjunto de n elementos. Imaginemos por ejemplo que dos dados son arrojados en forma simultánea, o que un dado es arrojado dos veces. ¿Cuántos resultados de dos componentes (por ejemplo, 3, 5) se podrán obtener? Pues 236. Si arrojamos un dado 3 veces, obtenemos un espacio muestral tridimensional y 63 puntos posibles. V. T. Tamane, Mathematics for Economists, Prentice-Hall, 1965. El conjunto potencia de S es el conjunto de todos los subconjuntos de S. Este conjunto potencia incluye a los subconjuntos formados por los miembros de S, a S mismo y al conjunto vacío. El conjunto potencia siempre es escrito como 2S. Por ejemplo, el conjunto potencia 2{1,2,3} de {1, 2, 3} es igual al conjunto {{1, 2, 3}, {1, 2}, {1, 3}, {2, 3}, {1}, {2}, {3}, Ø}. El conjunto original tiene un cardinal igual a 3, y resulta que la cardinalidad del conjunto potencia es 23=8. Esta notación ejemplifica una convención general para denotar a los conjuntos basándose en su cardinalidad. 20 Starr, Ross M. (1997). General Equilibrium Theory, Cambridge University Press.

XVI. Teoría de los juegos 448

este caso S es el conjunto de n-uplas de precios de los bienes. φ(x) es elegida como una función cuyo resultado es diferente a su argumento en tanto que la precio-upla x no iguale a la oferta con la demanda en todos los mercados. Aquí el desafío consiste en construir φ de tal manera que tenga esta propiedad además de satisfacer las restantes condiciones del teorema de Kakutani. Esto se puede lograr si φ tiene un punto fijo de acuerdo con el teorema. Por la forma en que ha sido construido, este punto fijo debe corresponder a una n-upla de precios que iguala a la oferta con la demanda en todos los mercados. Hubo aplicaciones a comienzos de la década a problemas militares tácticos, como la defensa anti-misilística, el coronel Blotto, duelos, etc. Luego el énfasis se desplazó hacia la disuasión y a la guerra fría, con contribuciones como las de Kahn, Kissinger y Schelling. En 1954 Shapley y Shubik publicaron un documento fundamental sobre el valor de un juego de votación como un índice de poder. Y en 1959 tuvo lugar el redescubrimiento espectacular de Martin Shubik del núcleo de un mercado en los escritos de Edgeworth (1881). Desde entonces, la mayor aplicación de la teoría de los juegos ha sido a temas económicos. Otras modelizaciones de juegos que han tenido notoriedad son los juegos estocásticos y dinámicos, repetidos, con o sin información completa, los juegos supervivencia (Milnor y Shapley, 1957; Luce y Raiffa, 1957; Shubik, 1959), los juegos de ruina (Rosenthal y Rubinstein, 1984), los recursivos (Everett, 1957) y otros modelos similares. Dos modelos han sido particularmente exitosos: 1) los juegos estocásticos que atienden a la cuestión de que las acciones actuales afectan las futuras oportunidades. Shapley (1953) demostró que los juegos estocásticos en un entorno estrictamente competitivo, con los pagos futuros descontados a una tasa fija, son determinados; es decir tienen estrategias óptimas estacionarias (dependen solamente del juego que es jugado, no de la historia ni tampoco de la fecha). 2) los juegos repetidos que modelizan el costado psicológico o informativo de relaciones que continúan a través del tiempo. La teoría permite predecir fenómenos como la cooperación, el altruismo, la confianza, el castigo y la venganza. El Principio de Equivalencia Un aspecto interesante que conecta a la teoría de los juegos con la economía es la relación entre los precios de equilibrio de una economía competitiva de mercado, y todas las soluciones importantes del juego correspondiente. Por economía de mercado se entiende una economía de intercambio puro, o una economía de producción con rendimientos constantes a escala. Decimos que una economía es competitiva si tiene muchos agentes, cada uno de los cuales tiene una incidencia demasiado pequeña sobre la dotación como para ser tenido en cuenta. Esto condujo a tres enfoques. En el enfoque asintótico, los agentes tienden a infinito, y se observa que el concepto de solución aplicable – núcleo21, valor, conjunto de negociación22, equilibrio estratégico – tiende hacia el conjunto de asignaciones competitivas. Pero estos son temas que abordaremos en el punto 3. 2.6 Juegos en forma estratégica 21 En el contexto de juegos coalicionales (juegos cooperativos) surge la idea del núcleo de una economía, una noción fácil de entender en una economía simple en la que sólo hay un conjunto de agentes individuales, cada uno de ellos dotado con una cantidad determinada de cada uno de los bienes existentes. En esta economía de intercambio puro, el núcleo es un concepto de solución muy general. Una asignación del total de los bienes existentes entre los jugadores estará "bloqueada" si hay una coalición de individuos que, con sus propias dotaciones iniciales de bienes (que pueden repartírselas sin problemas debido a su capacidad de comprometerse firmemente), puede mejorar a todos sus componentes en relación a la asignación que estamos considerando. Pues bien, el núcleo de esa economía está formado por todas las asignaciones que no están "bloqueadas" por ninguna coalición, incluyendo la formada por todos ellos. 22 Un conjunto de negociación está formado por las posibles propuestas que los agentes pueden realizar.

XVI. Teoría de los juegos 449

Vamos a desarrollar algo más profundamente la teoría de los juegos no-cooperativos que son jugados sólo una vez, con un número finito de jugadores y en los cuales cada jugador dispone de un número finito de estrategias23 . Trabajaremos sobre la forma estratégica (o normal) del juego. El paradigma que desarrollaremos es el de los juegos bi-personales con una matriz de pagos de movimientos simultáneos, aunque este esquema puede ser generalizado con facilidad. La forma estratégica (o normal) de un juego es una descripción natural y adecuada de un juego con movimientos simultáneos. También constituye una plataforma de análisis de juegos más complicados en sentido temporal o de información. Se define a la forma estratégica en términos de sus partes constitutivas: jugadores, acciones y preferencias. Las estrategias mixtas son randomizaciones sobre las acciones. La primera etapa es la más simple, consistente en el problema de ver qué decisión tomaría un jugador dadas sus creencias sobre las decisiones de sus oponentes. No trataremos la parte más difícil de las teoría de los juegos: qué creencias racionales tendrán los jugadores sobre las decisiones de sus adversarios. Estrategias individuales Disponemos de un conjunto finito no vacío de jugadores I de n∈N≡{1, 2, ...} jugadores (I={1,...,n}). El i-ésimo jugador (i∈I) tiene un especio no vacío de estrategias Si. Este espacio Si es finito. Éstas constituyen las estrategias puras que serán distinguidas de las mixtas, randomizaciones sobre las estrategias puras 24. Perfiles estratégicos Supondremos que todos los jugadores aplican sus estrategias al mismo tiempo: el jugador 1 aplica s1∈S1, el jugador 2 s2∈S2, etc. Al conjunto de estrategias elegidas por los n jugadores (una n-upla) lo denotamos como: s=(s1,…,sn). Este vector de n dimensiones de estrategias individuales es denominado un perfil estratégico. Cada combinación distinta de estrategias individuales da lugar a un perfil estratégico distinto. El conjunto de todos los perfiles estratégicos es llamado el espacio de perfiles S. Éste es simplemente el producto cartesiano de los espacios estratégicos Si de cada jugador. El jugador i a veces está interesado en las estrategias que podrían elegir los restantes n-1. Esta (n-1)-upla de estrategias, denominada perfil estratégico reducido, viene dada por s-i=(s1,s2,…,si-1,si+1, …sn). A cada jugador I le corresponde un espacio de todas las estrategias reducidas de la forma anterior S-i=S1X...XSi-1XSi+1X…XSn =╳j∈I∖{i}Sj. Pagos Cuando todos los jugadores juegan en forma simultánea sus estrategias individuales, sus elecciones resultan en un perfil de estrategias s∈S, que es denominado el resultado del juego.

23 Ustedes puede consultar como referencia Jim Ratliff, A Graduate Course in Game Theory. 24 Una estrategia no es necesariamente una sola acción, simple y elemental; en un juego con estructura temporal puede ser una secuencia muy compleja de acciones que dependen de acciones simples individuales adoptadas por todos los demás jugadores. Esto se aprecia cuando se transforma una descripción en forma extensiva de un juego en su forma estratégica. El término “forma estratégica” se deriva precisamente de que el formalismo presente ignora toda la complejidad potencial y considera a las estrategias como los términos primitivos de la teoría.

XVI. Teoría de los juegos 450

Cada jugador tiene preferencias sobre estos resultados. Supondremos que las preferencias de loterías sobre S pueden ser representadas por una función de utilidad de von Neumann-Morgenstern ui: S→R. Loterías Sea x un "resultado" y X un conjunto de resultados. Sea p una medida simple de probabilidad en X, luego p = (p(x1), p(x2), ..., p(xn)) donde p(xi) son las probabilidades de que ocurra el resultado xi∈X, i.e. p(xi) ≥ 0 para todos los i = 1, ..., n y ∑i=1

np(xi) = 1. Observen que en el caso de medidas simples de probabilidad, existen elementos finitos x∈X para los cuales p(x)>0 (p tiene "soporte finito”).Definimos ∆(X) como el conjunto de medidas de probabilidad simples en X. Una lotería particular es un punto en ∆(X). Una de las primeras cuestiones a responder es ¿cómo evaluaría un agente una lotería compuesta, es decir una lotería que da “tickets” para otra lotería, en lugar de proporcionar un premio? Podemos reducir las loterías compuestas a loterías simples combinando las probabilidades de las loterías de manera de obtener como resultado final una única distribución de probabilidad sobre los resultados. Para verlo, supóngase una lotería r con dos resultados posibles: con 50% de probabilidad, da un ticket para participar en otra lotería p, mientras que el 50% restante da un ticket para participar en otra lotería diferente q. Por lo tanto, r = 0.5p + 0.5q. En la figura 1b se ilustra cómo se reduce r a una lotería compuesta. En la Figura 1a, la lotería simple p tiene pagos (x1,x2,x3)=(0,2,1) con probabilidades respectivas (p1,p2,p3)=(0.5,0.2,0.3). La lotería simple q tiene pagos (y1,y2)=(2,3) con probabilidades (q1,q2)=(0.6,0.4). Por lo tanto, combinando el conjunto de resultados de la derecha de la Fig. 1b la lotería compuesta r tendrá pagos (z1,z2,z3,z4)=(0,1,2,3). Las probabilidades de estos resultados de r se obtienen tomando la combinación lineal de las probabilidades de las loterías originales: si el resultado 2 tenía probabilidad 0.2 en la lotería p y 0.6 en la lotería q, tendrá probabilidad 0.5(0.2)+0.5(0.6)=0.4 en la lotería compuesta r. También, si el resultado 1 tiene probabilidad 0.3 en p y 0 en q, tendrá probabilidad 0.5(0.3)+0.5(0)=0.15 en la lotería r. En resumen, la lotería compuesta tendrá resultados (z1,z2,z3,z4)=(0,1,2,3) con probabilidades respectivas (r1,r2,r3,r4)=(0.25,0.15,0.4,0.2).

Fig. 1a – Dos loterías simples Fig. 1b – Lotería compuesta En general, una lotería compuesta es un conjunto de K loterías simples {pk}k=1

K conectadas por probabilidades {αk}k=1

K con ∑k=1K αk=1 de tal manera que se tiene una lotería pk con probabilidad αk. Por lo

tanto, una lotería compuesta tiene la forma q =α1p1+α2p2... +αKpK. La lotería compuesta puede ser reducida a una lotería “simple” dado que q(xi)= α1p1(xi)+ α2p2(xi) + ...+ αKpK(xi) puede ser interpretada como la probabilidad de que ocurra xi∈X. Esto se logra reconociendo que ∑k=1

K αk=1 y ∑i=1n pi(xi)=1. Definiendo q(xi)

=∑k αk pk(xi) se tiene ∑i=1n q(xi) =∑k αk ( pk(xi)) =∑k αk=1. Por lo tanto, q=(α1p1, ..., αkpk) es en sí una lotería

XVI. Teoría de los juegos 451

simple. Como resultado, el conjunto de loterías simples en X, ∆(X), es un conjunto convexo: para toda p, q∈∆(X), αp+(1-α)q∈∆(X), para todo α∈(0,1). En la hipótesis de von Neumann-Morgenstern, las probabilidades son “objetivas” o exógenamente dadas por la “Naturaleza”, no pudiendo ser influidas por el agente. Empero, el problema de una persona bajo incertidumbre es que debe elegir entre probabilidades, hallando la “mejor” lotería en ∆(X). Una de las contribuciones más importantes de von Neumann y Morgenstern a la economía fue demostrar que si un agente tiene preferencias definidas sobre loterías, existirá una función de utilidad U: ∆(X)→R que asigna utilidad a cada lotería p∈∆(X) que representa esas preferencias (Cap. IX). ¡Pero si las loterías son meras distribuciones no parece tener ningún sentido que una persona prefiera una distribución particular a otra! Siguiendo la historia de la teoría de la utilidad desde Bernoulli, ¡parece claro que la gente deriva bienestar de las consecuencias, x∈X! Al fin de cuentas, no comemos probabilidades sino manzanas. Empero, von Neumann y Morgenstern sugieren precisamente lo contrario: ¡la gente deriva su bienestar de loterías y no de manzanas! En otros términos, las preferencias de la gente están definidas sobre las loterías y a partir de las mismas, en combinación con probabilidades objetivas, podemos deducir lo que tienen que ser las preferencias subyacentes. En la teoría de von Neumann-Morgenstern, y a contrario sensu de la teoría usual, las preferencias por las loterías anteceden lógicamente a las preferencias sobre los resultados. Pero el motivo es muy simple, si uno lo piensa un poco. Sea una situación con dos resultados posibles, o bien $10 o $0. Obviamente, la gente prefiere $10 a $0. Ahora consideremos dos loterías: en A, ustedes reciben $10 con 90% de probabilidad y $0 con 10% de probabilidad; en B, ustedes reciben $10 con 40% de probabilidad y $0 con 60% de probabilidad, Obviamente, la primera lotería A es mejor que la B, y podemos afirmar sobre el rango de resultados X=($10,0), la distribución p=(90%,10%) es preferida a la distribución (40%,60%). ¿Y si las loterías no se distribuyen exactamente sobre los mismos resultados? En ese caso podemos lograrlo asignando probabilidad 0 a los resultados no listados en esa lotería. Por ejemplo, en la Figura 1a, las loterías p y q tienen diferentes resultados. Haciendo que el conjunto de resultados completo sea (0,1,2,3), luego la distribución implícita en la lotería p es (0.5,0.3,0.2,0) mientras que la distribución implícita por la lotería q es (0,0,0.6,0.4). Por consiguiente, preferencias entre loterías con distintos resultados pueden ser replanteadas como preferencias entre distribuciones de probabilidad sobre el mismo conjunto de resultados reajustando de manera acorde el conjunto de resultados. El gran insight de von Neumann y Morgenstern fue evitar la definición de preferencias sobre resultados, captando todo lo demás en términos de preferencias sobre loterías. Concluído el juego, cada jugador i∈I recibe un pago ui(s)=ui(<si,s-i>). Los pagos individuales para los n jugadores y un perfil particular de estrategias s definen un vector de pagos correspondiente a dicho perfil estratégico u(s)=(u1(s), u2(s), ...,un(s)), es decir u: S→Rn. Nuestro juego puede ser descripto plenamente por un triple (I,S,u), es decir por un conjunto de jugadores I, un espacio de perfiles S, y un vector u de funciones de utilidad de von Neumann-Morgenstern definido sobre S. La mejor respuesta a estrategias puras Asumimos habitualmente que todos los jugadores son racionales, lo que significa que cada jugador maximizará su utilidad esperada dadas sus creencias sobre las acciones que elegirán los demás. Nos concentraremos por ahora en lo que podríamos llamar la “parte fácil” de la teoría de los Juegos, que consiste en formarse una idea sobre lo que harán los demás dadas sus creencias. Nos preguntamos: si el jugador i sabe (léase “cree con certidumbre”) la estrategia que jugarán los demás, ¿cuál es la estrategia que más le conviene? Obviamente, la mejor respuesta a la jugada de sus adversarios. Decimos que una estrategia si

*∈Si para el jugador i es una mejor respuesta al perfil estratégico reducido s-i∈S-i si y sólo si (∀si∈Si) ui(si

*, s-i)≥ui(〈si*,s-i〉i) o, en forma equivalente,

si

*∈arg max si∈Si ui(〈si*,s-i〉i).

XVI. Teoría de los juegos 452

Observen que esta definición es débil, en el siguiente sentido: la mejor respuesta puede que no le dé a i estrictamente más que cualquier otra elección estratégica. Pero al menos le proporciona una respuesta óptima. En otras palabras, no siempre se tendrá una función de mejor respuesta que indique la mejor respuesta única de i a algún perfil estratégico reducido s--i ∈ S-i, pero tendremos una correspondencia de mejor respuesta de i. Estrategias mixtas Hasta ahora nos hemos concentrado en las estrategias puras, que si son jugadas implican que los pagos a todos los actores son determinísticos. Si las elecciones son aleatorias debemos incluir elecciones randomizadas. Estipulamos que la randomización realizada por cada jugador es independiente de las de los demás. Cuando un jugador i∈ I elige una estrategia randomizada, todo otro jugador j∈ I╲{i} debe estar en la incertidumbre sobre qué estrategia pura si∈ Si está eligiendo el jugador i-ésimo. Si abandonamos este concepto, ello nos conduce a la noción de estrategias correlacionadas 25. Una estrategia mixta especifica un valor dentro del rango [0,1] para cada si∈Si. Cada jugador elige una y sólo una estrategia pura si∈Si en cada jugada del juego. Luego cualquier estrategia mixta σi∈∆(Si) debe ser tal que la suma de las probabilidades con que son jugadas las estrategias puras sea uno, es decir ∑si∈Si σi(Si)=1. Esta propiedad se satisface si σi(Si) es una distribución de probabilidad sobre Si. Ésta es la justificación de utilizar una distribución de probabilidad para representar a una estrategia mixta. Siguiendo una idea equivalente a como se definió un perfil de estrategias puras se puede definir un perfil de estrategias mixtas σ; el espacio de estrategias mixtas Σ; y al espacio soporte de la estrategia mixta sop(σi) como el conjunto de estrategias puras a las que se asigna una probabilidad positiva. Puntos de equilibrio en estrategias mixtas En el cuadro siguiente, supóngase que el jugador 1 selecciona la estrategia si∈Si

1 y el jugador 2 selecciona la estrategia sj∈Sj

2, y por consiguiente el rendimiento de 1 es uij1≡∏ij

1 y análogamente el rendimiento de 2 es uij

2≡∏ij2. Suponiendo que pi

1 es la probabilidad del jugador 1 de seleccionar la estrategia pura si, si∈Si

1 la estrategia mixta para el jugador 1 será expresada como: p1=(p1

1,p21, ...,pm

1) con p11’=1, p1≥0. En forma análoga, si pj

2 es la probabilidad del jugador 2 de seleccionar la estrategia pura sj, sj∈Sj2

la estrategia mixta para el jugador 2 viene dada por

p2=(p12,p2

2

, ...,pn2) con p21’=1, p2≥0.

Un punto de equilibrio en estrategias mixtas es entonces el par de vectores p1* y p2* cada uno de los cuales es una estrategia óptima, en el sentido de maximizar el rendimiento esperado, suponiendo que el otro jugador emplea su estrategia mixta (óptima). Se tiene por lo tanto:

25 Aumann, Robert J. [1987] “Correlated Equilibrium as an Expression of Bayesian Rationality,” Econometrica 55 1 (January).

XVI. Teoría de los juegos 453

p1Π1p2*≤p1*Π1p2* para toda p1 p1*Π2p2≤p1*Π2p2* para toda p2 para toda p2. Para todo juego finito bi-personal existe un par de vectores de estrategias mixtas como las anteriores, que definen un equilibrio, pero este par no tiene por qué ser único, ni tampoco tiene por qué dar pagos únicos (esperados). En términos generales, existe un equilibrio de estrategias mixtas para todo juego de n personas con un número finito de estrategias. El equilibrio es un conjunto de estrategias mixtas para los jugadores tal que ninguno de los jugadores puede mejorar su situación mediante un cambio unilateral de sus estrategias mixtas.

Jugador 2 sigue la estrategia S1

2 S22 Sj

2 Sn2

S11 (Π11

1,Π112) (Π12

1,Π122) ... ... (Π1n

1,Π1n2)

S21 (Π21

1,Π212) (Π22

1,Π222) ... ...

... ... ... (Πij1,Πij

2) ... Si

1

Jugador 1 sigue la estrategia

Sm

1 (Πm11,Πm1

2) (Πm21,Πm2

2) (Πmn1,Πmn

2) 2.7 Racionalidad limitada Hasta aquí siempre hemos supuesto que los jugadores disponen de una ilimitada capacidad para jugar el juego – aún hasta el punto de que consideran cada juego de ajedrez posible antes de hacer su primer movimiento. El motivo de este supuesto no es que sea un supuesto realista. La razón es que resulta relativamente simple describir un desarrollo perfecto del juego – cualquiera sea el juego, la estrategia perfecta es la que produce el mejor resultado. Es mucho más difícil desarrollar una teoría sobre cuán imperfectas son las decisiones de un jugador más realista, con capacidades limitadas. Ha habido numerosos intentos de economistas y teóricos de los juegos de sortear este problema, incorporando de alguna manera la idea de que los jugadores tienen un monto limitado de memoria, inteligencia y tiempo para resolver el juego. Uno de los intentos más interesantes implicó combinar la teoría de los juegos con otro conjunto de ideas elaboradas también por John Von Neumann – la teoría de las computadoras. No podemos definir claramente qué tipo de error puede cometer un ser humano, pero podemos establecer claramente qué tipos de estrategias puede seguir una computadora. Si reemplazamos al ser humano por la computadora, podemos asignar un significado preciso a la idea de racionalidad limitada. Al hacerlo así, podemos resolver esas dificultades de la teoría de los juegos creadas por el “supuesto simplificador” de racionalidad ilimitada. 2.8 Teoría Experimental de los Juegos Hasta ahora, hemos discutido teoría. Los juegos también pueden ser analizados mediante el experimento de observar a la gente jugando y ver lo que pasa. Este tipo de estudios es común entre los economistas y los psicólogos. Recientemente apareció una técnica experimental nueva diferente. Hace unos pocos años, el científico político Robert Axelrod llevó a cabo un torneo del dilema del prisionero. Invitó a todas las

XVI. Teoría de los juegos 454

personas a proponer estrategias para el dilema repetido; cada estrategia debía tener la forma de un programa de cómputo. Cargó todas las estrategias en una computadora y corrió el torneo, en el cual cada programa jugó 200 veces contra cada otro programa. Cuando el torneo terminó sumó las ganancias del programa e informó el score resultante. Dieciséis programas fueron propuestos, algunos muy complejos. Entre los 14 participantes, Anatol Rapoport presentó un programa que consistía en 4 líneas en BASIC, y al que llamó Tit for Tat (“ojo por ojo”). Sólo tenía dos reglas:

Comenzar colaborando Hacer lo que tu oponente hizo la ronda anterior

Era la más sencilla de todas las estrategias presentadas, y fue la que obtuvo la puntuación más alta. Después de la publicación de los resultados, se organizó un segundo torneo, en el que el número de rondas a jugar por partida sería aleatorio (para no crear una ronda especial, la final, en la que se favorece la deserción). A esta competición se presentaron 62 participantes, entre ellos el mismo Tit for Tat. De nuevo, obtuvo la mayor puntuación. Robert Axelrod relacionó el éxito de esta estrategia en el dilema del prisionero con sus características de "amabilidad", "provocabilidad" y "capacidad de perdón". Una estrategia "amable" es aquella en la que nunca se es el primero en desertar. Una estrategia "provocable" es aquella en la que se responde inmediatamente a la deserción de un oponente. Una estrategia con "capacidad de perdón" vuelve rápidamente a la cooperación si su oponente lo hace. Estas características hacen que el funcionamiento de esta estrategia sea fácil de comprender por el oponente, y se pueda así encontrar una forma de trabajar con él. Entre las variantes propuestas, cabe mencionar: Tit for Two Tats Es similar a Tit for Tat, pero sólo se venga si el oponente ha desertado las dos veces anteriores. Esta generosidad hace que esté en desventaja frente a Tit for Tat, ya que se puede ganar si sólo se deserta contra él en turnos alternos. Tit for Tat desconfiado Similar a Tit for Tat, pero el primer turno deserta. Sonda ingenua Comienza cooperando y siempre se venga de una deserción, pero de vez en cuando deserta espontáneamente (por lo tanto, no es tan altruista como Tit for Tat). Está en desventaja con otras estrategias recíprocas como Tit for Tat misma, porque puede iniciar una cadena de recriminaciones. Sonda con remordimientos Similar a sonda ingenua, pero nunca se venga de la venganza de una de sus deserciones. Así, elimina las recriminaciones mutuas. Explorador Deserta en la primera jugada, y si su oponente responde vengándose (con lo que es una estrategia recíproca), juega Tit for Tat en adelante. Si su oponente no responde, alterna deserción con cooperación. Vengativo Comienza colaborando, pero una vez que su oponente deserta, deserta siempre. Si bien estos ensayos no son una demostración matemática de la superioridad de esa estrategia, constituyen una evidencia del éxito del ojo-por-ojo. A esta altura uno se percata de que el término “teoría de los juegos” es un poco engañoso, porque sus aplicaciones son vastas: economía ciencia política, relaciones internacionales, relaciones

XVI. Teoría de los juegos 455

interpersonales, sociología, etc. Sólo en economía hay una enorme cantidad de aplicaciones que van creciendo con el tiempo. 3. Juegos Cooperativos: Preliminares26 El enfoque no cooperativo de la teoría de los juegos facilita un lenguaje rico y desarrolla útiles instrumentos para analizar muchas situaciones estratégicas. Una ventaja del enfoque es que puede tratar hasta en sus mínimos detalles a una situación para analizar el impacto final. Empero, tiene la limitación de que sus predicciones pueden ser altamente sensibles a estos detalles. Por tal motivo, conviene analizar aproximaciones más abstractas que permitan obtener conclusiones independientes de esos detalles. El enfoque de los juegos cooperativos es una de esas aproximaciones. Los aspectos básicos de la teoría de los juegos cooperativos son los siguientes. Sea N={1, ..., n} un conjunto finito de jugadores. Para cada S⊂N (que denominaremos la coalición S) especificamos un conjunto V(S) que contiene a │S│, que son los vectores de pago dimensionales factibles para la coalición S. Así, se adopta una forma reducida porque no tenemos necesidad de explicar qué elecciones estratégicas están por detrás de los vectores de pago en V(S). Esta formulación, denominada de función característica, implícitamente supone que las acciones tomadas por la coalición complementaria (los jugadores que no están en S) son incapaces de impedir los vectores de pago contenidos en V(S). Dada la colección de conjuntos V(S), la teoría formula sus predicciones sobre la base de conceptos de solución. Una solución es un mapa que asigna un conjunto de pagos en V(N) a cada función característica (V(S))S⊆N. Luego, una solución prescribe un conjunto, aunque puede asignar un único punto (cuando asigna un único vector de pagos como función de los aspectos fundamentales del problema). El concepto de solución cooperativa cuyo valor es un conjunto que tiene el rol destacado es el núcleo (core), en tanto que los conceptos más utilizados a valor único son las soluciones cooperativas de Nash y el valor de Shapley. Una distribución de los pagos logrados por agentes que cooperan entre sí es denominada una imputación. Intuitivamente, el núcleo es el conjunto de imputaciones contra las cuales ninguna coalición puede proponer una alternativa que preferirían y que podrían obtener aún actuando solos. Hay varios criterios para establecer cuándo es razonable una solución cooperativa. Uno es defendiéndola mediante la definición. Con el núcleo esto es relevante: en un contexto en el que los jugadores pueden formar grupos libremente, la predicción debería ser vectores de pago que no pueden ser mejorados por ninguna coalición. Pero las coaliciones son formadas por jugadores individuales. Por ello, la solución cooperativa debe entenderse como el resultado de una serie de problemas estratégicos enfrentados por los jugadores individuales. Segundo, nuevas conexiones y diferencias entre las soluciones pueden ser descubiertas a partir de los distintos procesos de negociación que conducen a cada una de ellas. Luego, el resultado del programa de Nash, referido como “fundamentación no-cooperativa” o “implementación no-cooperativa” de una solución cooperativa realza su significado al ser vista desde una nueva perspectiva. De esta manera podríamos abrir la “caja negra” de cómo llegó a formarse una coalición. 3.1 La solución de negociación de Nash Un caso particular de una función característica es un problema de negociación de dos jugadores. N={1,2} es el conjunto de jugadores. El conjunto V({1,2}) es un conjunto compacto y convexo de R2 y constituye el conjunto de pagos factibles si ambos jugadores llegan a un acuerdo. La compacidad es consecuencia de una torta de tamaño dado que las partes se dividen entre sí, y la convexidad es consecuencia de la utilidad esperada y del uso potencial de loterías. Los conjuntos (V{i})i∈N son subconjuntos de R, y sea du=max V({i}) el pago de desacuerdo del jugador i27. Se supone que V({1,2}) contiene vectores de pago que dominan en

26 Existe una tendencia a dar prioridad a los juegos no cooperativos en desmedro de los cooperativos (v. p.ej. Mas-Colell, Whinston & Green, ob. cit.). La teoría de los juegos cooperativos ha jugado un rol importante en la teoría del equilibrio general, por cuyo motivo es conveniente hacer aquí una breve visita. 27 Esto es, el pago que recibirá i si las partes fracasan en alcanzar un acuerdo.

XVI. Teoría de los juegos 456

sentido de Pareto28 a los pagos de desacuerdo. Una solución asigna un par de pagos factibles a cada problema de negociación. Éste es el esquema que introdujo Nash en 1950 cuando propuso cuatro axiomas que debería tener una solución. 1º) La utilidad esperada implica que, si las funciones de pago están sujetas a una transformación afín29, lo mismo debe suceder con la solución (invariancia con respecto a la escala). 2º) La solución debe ser eficiente en sentido de Pareto. 3º) Si el conjunto V({1,2}) es simétrico con respecto a la bisectriz de 45º y d1=d2, la solución debe yacer en la bisectriz (simetría). 4º y último) La solución debe ser independiente de alternativas “irrelevantes”, es decir debe seleccionar el mismo punto si sigue siendo factible una vez que se han eliminado otros puntos del conjunto factible. Por el supuesto 1º), no perdemos generalidad en normalizar el punto de pagos de desacuerdo en 0. Al problema resultante lo llamamos problema normalizado. Nash demostró que existe una única solución que satisface los cuatro axiomas, y es la que asigna a cada problema normalizado el punto (u1,u2) que maximiza el producto v1v2 sobre todos los (v1,v2)∈ V({1,2}). Ésta es la que hoy llamamos la solución de Nash. Esta solución abunda en aplicaciones, y es considerada, en vista de los axiomas, como una solución normativa condicional. Luego (en 195330) Nash facilitó un enfoque no cooperativo de la solución a que había llegado normativamente. Lo hizo mediante un ejemplo simple de demanda. A los dos jugadores se les requiere que demanden en forma simultánea un pago: el jugador 1 demanda v1 y el jugador 2 demanda v2. Si el pago es factible, es decir (v1,v2)∈ V({1,2}), tiene lugar el acuerdo correspondiente y la división de la torta a fin de implementar estos pagos. Si no, hay desacuerdo y los pagos son 0. Para ejemplificar, pensemos que existe una torta física de tamaño 1 que se crea si el acuerdo es alcanzado, en tanto que no se crea nada si no. Luego, la demanda vi del jugador i corresponde a una participación xi en la torta, 0≤xi≤1, tal que la utilidad o pago de i de recibir xi es ui. El modelo de juego de demanda de Nash admite un continuo de equilibrios de Nash. En efecto, todo punto de la frontera de Pareto de V({1,2}) es un resultado de equilibrio de Nash, como también lo es el punto de pagos de desacuerdo si cada jugador demanda un pago que corresponde a toda la torta. Empero, Nash introduce incertidumbre con respecto al tamaño de la torta. Entonces los jugadores, al formular sus demandas, deben tener en cuenta que con cierta probabilidad el par de demandas puede conducir al desacuerdo, aunque sumen menos que 1. Entonces se puede mostrar que la elección óptima de demandas en un equilibrio de Nash del juego de demanda con una torta incierta converge a la solución de pagos de Nash a medida que la incertidumbre se reduce. Luego, la solución de Nash surge como una regla que iguala la ganancia marginal (via aumento de la participación de uno en la demanda) con la pérdida marginal (via aumento de la probabilidad de desacuerdo) para cada jugador cuando el problema es sometido a cierto ruido y las demandas son comprometidas en forma simultánea. Rubinstein (en 198231) propuso un procedimiento no cooperativo distinto, en el cual la preferencia temporal-impaciencia y credibilidad de las amenazas son las fuerzas principales que arrastran el equilibrio. El juego es una sucesión de ofertas alternativas potencialmente infinitas. En el período 0, el jugador 1 comienza haciendo una primera propuesta. Si el jugador 2 la acepta, el juego termina; si no, pasa otro período y el que rechazó la propuesta hará una contrapropuesta en ese período, y así sucesivamente. Si δ∈[0,1] es el factor de descuento común por período, con vi(.) la utilidad del jugador i sobre porciones de la torta, cóncava

28 Es decir, se trata del concepto de eficiencia de Pareto (también llamado óptimo de Pareto, Pareto-optimalidad u óptimo paretiano) es aquella situación en la cual se cumple que no es posible beneficiar a más elementos de un sistema sin perjudicar a otros. Se basa en criterios de utilidad: si algo genera o produce provecho, comodidad, fruto o interés sin perjudicar a otro, provocará un proceso natural de optimización hasta alcanzar el punto óptimo. 29 Una transformación afín mantiene la colinealidad (es decir, todos los puntos iniciales de una recta aún están ubicados en una recta luego de la transformación) y la relación de distancia (es decir, el punto medio inicial de una recta sigue siendo el punto medio luego de la transformación). En tal sentido, la afinidad se refiere a una clase especial de transformaciones proyectivas que no trasladan ningún objeto desde el espacio afín al plano en el infinito o recíprocamente. 30 Nash, John F. (1953), Two person cooperative games, Econometrica 21. 31 Rubinstein, A. (1982), Perfect equilibrium in a bargaining model, Econometrica 50.

XVI. Teoría de los juegos 457

y estrictamente monótona, el jugador i recibe una participación xi en el acuerdo alcanzado en el período t, con un pago igual a δt-1vi(xi). El desacuerdo perpetuo conduce a un pago de 0. Rubinstein demuestra que existe una única predicción de este juego, usando el concepto de equilibrio perfecto del subjuego como concepto de solución – que es la herramienta habitual para descartar amenazas no creíbles en juegos dinámicos de información completa32 . Específicamente, el único equilibrio perfecto del subjuego recomienda un acuerdo inmediato sobre la división (x,1-x) ofrecida por el jugador 1, e (y,1-y) ofrecida por el jugador 2, con arreglo a: v1(y)=δv1(x) v2(1-x)=δv2(1-y). Posteriormente, Binmore, Rubinstein y Wolinsky (en 1986) demostraron que independientemente de quién haga la primera propuesta, los únicos pagos de equilibrio del juego de Rubinstein convergen a los pagos de la solución de Nash a medida que δ→1 (x→y). Por lo tanto, las amenazas creíbles en negociaciones con jugadores igualmente (y completamente pacientes) también conducen a la solución de Nash. 3.2 El valor de Shapley Ahora veamos un juego de n jugadores con coaliciones con pagos transferibles entre los mismos33. Esto significa que V(S), el conjunto factible de la coalición S, es el conjunto de pagos (Πi)i∈S que satisfacen ∑i∈S Πi≤v(S) para algún número real v(S). Debe hacerse una distinción importante en los juegos cooperativos, que es la que existe entre aquellos con pagos laterales, en los cuales los rendimientos son transferibles, y aquellos sin pagos laterales, en los cuales los rendimientos no lo son. A los primeros los llamaremos de utilidad transferible o juegos TU en su forma de función característica. El número v(S) es denominado el valor de S, y expresa la posición inicial de S (es decir, la utilidad total máxima que el grupo de agentes 32 Un equilibrio perfecto del subjuego es un refinamiento del equilibrio de Nash utilizado en juegos dinámicos. Un perfil estratégico es un equilibrio perfecto del subjuego si representa un equilibrio de Nash de cualquier subjuego del juego original. De modo más informal, esto significa que (1) los jugadores juegan sólo una parte del juego más amplio y (2) su conducta es un equilibrio de Nash de ese juego más pequeño. Se dice entonces que su conducta es un equilibrio perfecto del juego más amplio. Una forma habitual de determinar los equilibrios perfectos de subjuegos es mediante inducción hacia atrás. En primer término consideramos las últimas acciones del juego y determinamos qué acciones debería adoptar el último actor a fin de maximizar su utilidad. Suponemos que las adopta, y a continuación consideramos las acciones anteriores a las últimas, eligiendo nuevamente aquellas que maximizan su utilidad. El proceso continúa hasta que se llega a la primera movida del juego. Las estrategias subsistentes constituyen los equilibrios perfectos del subjuego. No siempre podemos aplicar la inducción hacia atrás, por ejemplo en juegos de información imperfecta o incompleta, ni tampoco en juegos de duración infinita. Un subconjunto importante de los juegos secuenciales es el conjunto de los juegos de información perfecta. Un juego es de información perfecta si todos los jugadores conocen los movimientos que han efectuado previamente todos los otros jugadores; así que sólo los juegos secuenciales pueden ser juegos de información perfecta, pues en los juegos simultáneos no todos los jugadores (a menudo ninguno) conocen las acciones de los restantes. La información perfecta se confunde a menudo con la información completa, que es un concepto similar. La información completa requiere que cada jugador conozca las estrategias y recompensas del resto pero no necesariamente las acciones. Fue Reinhard Selten quien demostró que todos los juegos que pueden ser descompuestos en sub-juegos que contienen al conjunto de todas las elecciones disponibles en el juego principal tendrán estrategias de Equilibrio de Nash perfectas en el subjuego. El procedimiento de inducción hacia atrás elimina ramas del juego que requerirían que el jugador practicase movimientos no creíbles a partir de ese nodo (porque no son óptimas). Lo interesante de la palabra “creíble” es que, tomadas en su conjunto, existen estrategias superiores a las estrategias perfectas del subjuego, pero que no resultan creíbles en el sentido de que si amenazamos con tomarlas nos hacemos daño con esas estrategias e impedimos alcanzar esa combinación de estrategias. Aquí pueden encontrar un ejemplo de un Equilibrio de Nash perfecto del subjuego. 33 Esto puede justificarse porque la utilidad de los jugadores está representada por dinero.

XVI. Teoría de los juegos 458

puede alcanzar en una economía de intercambio mediante la redistribución de sus tenencias cuando la utilidad es cuasi-lineal). Sin pérdida de generalidad, podemos describir a un juego TU como una colección de números reales (v(S))S⊆ N. Luego, una solución es un mapa que asigna a cada juego TU un conjunto de pagos en el conjunto V(N), es decir, vectores (Π1,...Πn) tales que ∑i∈N Πi≤v(N). En estas dos secciones requerimos que la solución proporcione un único valor. Shapley (en 1953 34) se interesó en resolver de manera equitativa el problema de distribución de un excedente entre jugadores, teniendo en cuenta el valor de cada coalición. Impuso los siguientes axiomas: 1) Los pagos deben sumar v(N) (eficiencia). 2) Si dos jugadores son sustitutos porque contribuyen con el mismo grado a cada coalición, la solución debe tratarlos de modo igualitario (simetría). 3) La solución de la suma de dos juegos TU debe ser igual a la suma de lo que corresponde a cada uno de los juegos (aditividad). 4) Si un jugador no contribuye nada a ninguna coalición, en la solución no se le debe pagar nada (dummy). Shapley obtuvo que bajo estos axiomas existe una única solución de los juegos TU, que hoy es llamada la solución de Shapley, y que asigna a cada jugador i el rendimiento Πi= ∑∀S⊂N γn(S)[v(S∪{i})-v(S)] donde γn(S) es un factor de ponderación: γn(S)=[s! (n-s-1)!] / n! y s es el número de jugadores de S. Este factor de ponderación se basa en los siguientes hechos: la coalición de n jugadores puede formarse de n! maneras diferentes; los s jugadores de la coalición S antes de que se incorpore el jugador i pueden disponerse de S! maneras diferentes; y los n-s-1 jugadores que no están en la coalición ampliada pueden asimismo disponerse de (n-s-1)! maneras diferentes. De este modo, γn(S) es simplemente la probabilidad de que un jugador se una a la coalición S, suponiendo que las n maneras de formar una coalición de n jugadores son todas igualmente probables. En la figura siguiente tenemos el ejemplo de un juego de tres personas en forma de función característica:

v({∅})=0 v({1})=0 v({2})=0 v({3})=0

v({1,2})=0,1 v({1,3})=0,2 v({2,3})=0,2 v({1,2,3})=v(n)=1

Para el jugador 1, los casos son: v({1})- v(∅)=0 v({1,2})-v({2})=0,1 v({1,3})-v({3})=0,2 v({1,2,3})-v({2,3})=0,8 y las ponderaciones aplicadas son 2/6, 1/6, 1/6 y 2/6 respectivamente. Luego, el pago del jugador 1 será: Π1= (2/6) 0 + (1/6) (0,1) + (1/6) (0,2) + (2/6) (0,8) = 19/60. Análogamente, el pago de 2 será 19/60 y el del jugador 3 es 22/60. Luego, la imputación del valor de Shapley es (19/60,19/60,22/60). Éste tiende a dar una idea sobre el poder de cada uno de los jugadores según se ve reflejado en el pago adicional resultante de la incorporación de este jugador a las coaliciones que no lo incluían. Así, en este juego el tercer jugador tiene más poder que los otros jugadores y debería obtener más que ellos, dado que las dos coaliciones de dos jugadores con el jugador 3 obtienen 0,2, mientras que 34 Shapley, L. S. (1953), A value for n-person games. In Contributions to the Theory of Games II, A.W. Tucker and R.D. Luce (eds.), Princeton University Press.

XVI. Teoría de los juegos 459

aquella en la que no participa obtiene 0,1. La fórmula supone que cada jugador recibe el promedio de su contribución a todas las coaliciones de las cuales es un miembro potencial. 3.3 El núcleo El primero que introdujo en la teoría económica la idea de acuerdos inmunes a desvíos de las coaliciones fue Edgeworth en 1881, que definió al conjunto de asignaciones estables desde el punto de vista de las coaliciones formadas como “acuerdos finales”. Consideró que este concepto era una alternativa al equilibrio walrasiano y también fue el primero en investigar las conexiones entre ambos conceptos. El concepto de Edgeworth fue redescubierto por Gillies 35 y rebautizado como núcleo. Continuamos suponiendo un juego TU. En este contexto, el núcleo es el conjunto de vectores de pago Π=(Π1,...,Πn) factibles, es decir que satisfacen ∑i∈S Πi≤v(N), tales que no existe ninguna coalición S⊆N para la cual se verifique ∑i∈S Πi< v(S). Si existiera tal coalición S, diremos que bloquea a Π, y Π es reputado como inestable. Usualmente, el núcleo describe un conjunto de pagos, en lugar de uno solo, y también pueden existir juegos con núcleo vacío. Una imputación es un vector en un espacio euclídeo de dimensión n que representa los pagos que obtiene cada uno de los jugadores en el juego: Π= (Π1,Π2, ..., Πn), donde Πi es el pago del jugador i, i=1, ..., n. Tomando como ejemplo la tabla anterior, una imputación posible sería (0,3;0,2;0,5) donde el jugador 1 recibe 0,3, el jugador 2 recibe 0,2 y el jugador 3 recibe 0,5. Suponiendo que se tiene en cuenta a todos los jugadores y pagos, los pagos totales que reciben todos los jugadores son iguales al pago que recibe la coalición de todos los jugadores: v(N)=∑i∊N Πi = ∑i=1

nΠi supuesto denominado como racionalidad del grupo. También es razonable suponer que ningún jugador va a entrar a una coalición si no recibe al menos lo que recibiría actuando en forma independiente: Πi≥ v({i}), para todo i∈ N. Este supuesto es el de racionalidad individual. Estos dos supuestos limitan el número de imputaciones posibles, pero aún así las imputaciones restantes forman un conjunto extremadamente grande, de modo que el paso siguiente es sugerir algún criterio de dominancia entre imputaciones que permita limitar el número de imputaciones consideradas. Un criterio débil de dominancia entre imputaciones fue propuesto por von Neumann y Morgenstern. Dice que un conjunto de jugadores es efectivo para una imputación si pueden, formando una coalición, obtener por sí mismos al menos lo que recibirían conjuntamente en la imputación. Decimos que la coalición S es efectiva para la imputación Π= (Π1,Π2, ..., Πn), si: v(S)≥ ∑i∈S Πi. Por ejemplo, en el caso de un juego de tres personas en forma de función característica como el anterior, el conjunto de jugadores {2,3} es efectivo para la imputación (0,95, 0, 0,05) dado que si ellos formasen su propia coalición, recibirían conjuntamente 0,2, que es más de lo que recibirían en la imputación. Decimos que la imputación Π1= (Π1

1,Π21, ..., Πn

1) domina a la imputación Π2= (Π12,Π2

2

, ..., Πn2), si existe una coalición

de jugadores efectiva para Π1 tal que cada jugador de la coalición recibe más en Π1 que en Π2; es decir, si existe una coalición de jugadores S que es efectiva para Π1: v(S) ≥ ∑i∈S Πi

1 y cada miembro de la cual recibe más en Π1 que en Π2, a saber:

35 Gillies, D.B. (1959), Solutions to General non-zero-sum games, in A. W. Tucker and R. D. Luce (eds.), Contributions to the Theory of Games IV, Princeton University Press.

XVI. Teoría de los juegos 460

Π1

i>Π2i para todo i∈S.

A guisa de ejemplo, en la tabla anterior la imputación Π1 = (0,1;0,8;0,1) domina a Π2 = (0,05;0,9;0,05) dado que la coalición {1,3} es efectiva para Π1 donde ambos jugadores 1 y 3 reciben más en Π1 que en Π2. Al amenazar con la acción independiente, la coalición {1,3} puede asegurarse que la imputación (0,05;0,9;0,05) jamás llegará a realizarse. Decimos que un conjunto de imputaciones es una solución de von Neumann-Morgenstern si una imputación del conjunto no domina a ninguna otra imputación del conjunto, y ninguna imputación no perteneciente al conjunto es dominada por alguna imputación del conjunto. Este concepto de dominancia débil no permite en general obtener una imputación única, aunque permite reducir la elección de imputaciones. El núcleo es un criterio de dominancia entre las imputaciones, que es un subconjunto de cada solución de von Neumann-Morgenstern, si es que existe dicha solución. El número de imputaciones que debe considerarse queda reducido en el núcleo al exigir que cada coalición ejerza el mismo grado de racionalidad que un jugador individual, de modo que la imputación distribuye a cada coalición al menos tanto como ésta obtendría mediante la acción independiente. El núcleo es entonces el conjunto de imputaciones que satisfacen la “racionalidad de la coalición”, incluyendo la “racionalidad individual” cuando los subconjuntos consten de jugadores individuales; la “racionalidad del grupo”, caso en que el subconjunto sea la gran coalición de todos los jugadores; y la racionalidad de todas las coaliciones de tamaño intermedio. Por ejemplo, el núcleo del juego de tres personas descripto más arriba exige en primer término identificar la frontera del simplex de R3 que es el conjunto de imputaciones (Π1,Π2,Π3) tales que son no negativas y su suma es la unidad, como se representa en la figura adjunta. Los vértices del simplex son las imputaciones del simplex para las cuales un jugador se lleva todo. El núcleo es obtenido agregando sobre la faceta del simplex las restricciones de racionalidad individual, de racionalidad del grupo y la racionalidad de todas las coaliciones intermedias, lo que conduce a recortar partes de esta faceta36. Si existe el núcleo, luego la imputación elegida debería pertenecer al núcleo, dado que en tal caso se toman en cuenta todas las coaliciones. Empero, el núcleo es vacío en muchos juegos: ninguna imputación satisface las condiciones de racionalidad de la coalición para todas las coaliciones. Por ejemplo, si en el juego anterior de 3 personas todas las coaliciones de dos jugadores reciben 0,8 entonces el núcleo será vacío.

Simplex bidimensional en 3 dimensiones

Vértices (1,0,0);(0,1,0);(0,0,1)

3.4 Principio de equivalencia Una de las aplicaciones más famosas del núcleo es el llamado principio de equivalencia del núcleo, que establece que el núcleo coincide con el conjunto de resultados competitivos (walrasianos) en mercados competitivos con muchos comerciantes, cada uno de los cuales tiene una participación insignificante. Debe mencionarse que en cualquier mercado – aún en aquellos con un pequeño número de participantes – todo resultado competitivo está en el núcleo. Es la proposición recíproca la que requiere de un amplio número de participantes, cada uno no significativo. Conclusión sobre el núcleo La mayoría de las aplicaciones del núcleo han sido realizadas en contextos económicos, específicamente a mercados de uno u otro tipo. La aplicación más importante es el principio de equivalencia, que vincula al núcleo de un mercado perfectamente competitivo con sus equilibrios competitivos. El núcleo expresa la idea de competencia desenfrenada; su carácter no vacío expresa la idea de que la competencia puede conducir a la estabilidad, de que existe un resultado consistente con la estabilidad. En la práctica esto sucede en contextos económicos como los descriptos hasta ahora. Los 36 Ver gráfico en M. Intriligator, ob.cit., Cap. 6.4.

XVI. Teoría de los juegos 461

contextos políticos son inherentemente menos estables, y a menudo tienen núcleos vacíos. Constituye un punto de partida para otros conceptos más sofisticados como el conjunto estable de N-M, el nucleolo, y otros. Por ello, el núcleo ocupa una posición central en la teoría de los juegos cooperativos. 4. Juegos repetidos La teoría de los juegos repetidos ha pasado a ser un instrumento importante de análisis de las ciencias del comportamiento (como la economía) y las biológicas. De hecho, facilita un modelo central explicativo de cómo agentes egoistas pueden actuar cooperativa y eficientemente en una relación de largo plazo. Ofrece una respuesta muy simple a la pregunta de por qué deberían cooperar agentes egoistas: lo deben hacer para asegurarse la cooperación continuada en el futuro. Para ilustrar este punto repasemos la tensión entre interés propio y cooperación del Dilema del Prisionero, alterando un poco los valores de la matriz de pág. 432:

Cooperar (C) Desertar (D)

Cooperar (C) 2, 2 -1, 3 Desertar (D) 3, -1 0, 0

Ya sabemos que si el juego es jugado una sola vez, sea lo que haga el otro jugador, una estrategia dominante de cada jugador es jugar la deserción. El resultado predicho es que al jugar D, ambos obtienen un peor resultado que si hubieran jugado C. Ahora imaginemos que el juego es repetido muchas veces – formalmente, infinitas veces – y que a cada jugador le interesan sus pagos en el largo plazo más que en una jugada particular. A diferencia de antes, ahora jugar en forma cooperativa puede ser de interés de cada jugador. De hecho, la estrategia consistente en que cada jugador juega (i) C en la primera iteración, (ii) continúa jugando C siempre que los demás jugadores hayan actuado cooperativamente en el pasado, y (iii) juega D en cualquier otro caso (llamemos a esta estrategia CC ó cooperación condicional) da lugar a un equilibrio en el siguiente sentido: si ambos agentes la adoptan, ninguno tendrá incentivos a desviarse en forma unilateral. Para apreciar este resultado, observen que cuando ambos jugadores siguen CC, sigue una corriente infinita de resultados cooperativos, que otorga a cada jugador un pago promedio de 2 por período. Sin embargo, si un jugador se desvía en forma unilateral hacia la otra estrategia, entonces sucede que: (a) en algún momento jugará D – y en tal caso su adversario jugará D a partir de entonces, y por consiguiente el desertor obtuvo a lo sumo un pago igual a cero, o también (b) a pesar del desvío, continúa jugando C en cada iteración – y en tal caso, todavía obtiene un pago promedio de 2, y no gana nada con su desvío. Luego, la repetición hace que la cooperación sea un resultado más plausible. Lamentablemente, cooperar no es el único resultado plausible. Por ejemplo, la estrategia de jugar siempre desertar (AD) también genera un equilibrio si ambos la adoptan. Y estos dos extremos –CC, que conduce a cooperar en cada iteración, y AD, que no conduce a cooperación alguna – ¡no son las únicas posibilidades! Un teorema popular de teoría de los juegos afirma que toda posibilidad intermedia entre la cooperación plena y la completa deserción también puede ocurrir en equilibrio. Así, la teoría no logra realizar predicciones claras sobre el comportamiento de ninguna naturaleza. Prácticamente no da lugar a hipótesis no falsables. Es de esperar que la evolución (biológica o cultural) ayude a despejar esta lobreguez predictiva. Las fuerzas evolutivas fomentan a menudo la eficiencia, de manera que podría esperarse que la conducta no cooperativa sea desterrada y en su lugar la presión selectiva promueva el

XVI. Teoría de los juegos 462

comportamiento cooperativo. Esta idea ha sido planteada con mucha fuerza por Axelrod37. Idea central: supóngase que comenzamos con una población en la cual todos los jugadores juegan la estrategia AD. Ahora, aparece un pequeño grupo de “mutantes” que usan la estrategia CC. Observen que CC gana lo mismo (o sea, cero) que AD contra ellos mismos. Y CC gana un pago de 2 contra ellos mismos, mientras que AD gana solamente 0 en promedio contra CC. Por lo tanto, en términos esperados (suponiendo que pares de estrategias son tomadas al azar de toda la población), CC se comporta mejor estrictamente que AD. Luego, con arreglo a la dinámica evolutiva estándar, CC se reproducirá más rápidamente que AD y eventualmente se apoderará de toda la población. Es decir que el comportamiento no cooperativo de AD será raleado. Mas entre las estrategias no cooperativas, AD es poco representativa y fácil de ser expulsada. En su lugar, consideren ALT, una estrategia que alterna entre C y D hasta que alguien rompe el patrón alternante, a partir de cuyo punto juega siempre D. A diferencia de AD, una población de ALTs no puede ser invadida por una estrategia mutante. Para apreciarlo, noten que un mutante tendría que conformarse al patrón alternante, si no terminaría actuando peor (con un pago medio de 0) que ALT que lo que haría ALT contra sí mismo (con un pago promedio de 1), y por lo tanto no podría crecer con respecto a ALT. Pero un mutante que actuara conforme al patrón alternante también fracasaría en términos esperados con respecto a ALT. Luego, ALT es evolutivamente estable (EE) pese a ser bastante ineficiente y no cooperativo38,39. Pero en cierto sentido ALT es demasiado inflexible. Después de todo, descansa en la alternación perfecta: cualquier desvío del patrón C, D, C, D, C... es “castigado” por una sucesión infinita de Ds. Ello sugiere que podría no irle demasiado bien en un contexto donde hay estrategias que no siempre son exactamente ejecutadas, es decir cuando hay alguna probabilidad de que estas estrategias cometan algún error. En tal entorno, ALT deja de ser EE. Consideremos específicamente una estrategia mutante s’ idéntica a ALT excepto cuando se ha roto el patrón alternante. En la iteración previa a la ruptura, s’ juega C (a diferencia de ALT que siempre juega D) por un período – para dar una señal de su disposición a cooperar. Si el otro jugador también juega C en esa iteración, entonces s’ juega C a partir de allí. Pero si el otro jugador juega D, s’ (como también ALT) jugará D a partir de entonces. Lema Si s’ está construida de esa manera, terminará invadiendo exitosamente a una población de ALTs si las estrategias están sujetas a una pequeña probabilidad de ejecución errónea (o sea que se rompe, con probabilidad positiva, el patrón alternante). Dem.) Observen que (i) s’ es idéntica a ALT antes de la ruptura del patrón alternante; (ii) s’ y ALT reciben un pago de 0 por período contra ALT una vez roto el patrón; (iii) s’ recibe un pago de casi 2 pero ALT recibe sólo 0 contra s’ luego de la ruptura del patrón. Luego, en términos de expectativa, s’ se comporta mejor que ALT y realizará una invasión exitosa.

37 Axelrod, R. (1984), The Evolution of Cooperation, Basic Books. 38 Dicho en forma aproximada, una estrategia s es EE si no existe una estrategia mutante s’ que tenga un mejor rendimiento que s en términos esperados contra una población consistente mayormente de s pero con una pequeña proporción de s’. 39 De hecho la situación es aún peor. Sea una estrategia que sigue en forma repetida el patrón C seguido por dos Ds hasta que se rompe el patrón, en cuyo momento juega a partir de entonces D. Por el mismo motivo que ALT, esta estrategia más elaborada es EE, aunque alcanza un rendimiento medio de ⅔. Si seguimos agregando Ds al patrón repetido, podemos obtener una estrategia EE arbitrariamente próxima en términos de pago a la estrategia plenamente no cooperativa AD.

XVI. Teoría de los juegos 463

Han sido caracterizados los pagos correspondientes a estrategias EE en juegos repetidos de dos jugadores simétricos40 cuando (i) existe una probabilidad positiva p en cada iteración de cometer un error, y (ii) los jugadores descuentan los pagos futuros con una tasa de interés positiva r, de tal manera que los jugadores, en lugar de maximizar los pagos promedio en el largo plazo, maximizan el pago promedio descontado (r/1+r) ∑t=1

∞(1/1+r)t-1 πt , donde πt es su pago en la iteración t. Definamos a un par de pagos (vF, vC) donde vF (vC) es el pago al jugador fila (columna) en un juego simétrico g como fuertemente eficiente si (a) (vF, vC) son pagos factibles de g y (b) (vF+vC) maximizan la suma de pagos de los jugadores entre todos los pagos factibles de g. En el Dilema del Prisionero de más arriba, los únicos pagos fuertemente eficientes son (2, 2). Pero en la Batalla de los Sexos siguiente:

Ballet Boxeo Boxeo 0, 0 1, 2 Ballet 2, 1 0, 0

cualquier combinación convexa de (1, 2) y (2, 1) es fuertemente eficiente (suponiendo que los jugadores puedan jugar estrategias mixtas). Si llamamos vm al pago mínimo consistente con la eficiencia fuerte, o sea: vm=min{vF І (vF, vC) es fuertemente eficiente} tenemos que vm=2 en el Dilema del Prisionero, y vm=1 en la Batalla de los Sexos. Teorema 1 Dado ε>0, si p>0 y r>0 son suficientemente pequeñas, los pagos generados cuando ambos jugadores utilizan una estrategia s EE no pueden ser menores que vm-ε. Este teorema afirma que si la probabilidad de error y la tasa de descuento son pequeñas (pero positivas) los pagos resultantes de una estrategia EE no pueden ser demasiado inferiores a vm. Teorema 2 Sean (v, v) los pagos factibles y v≥vm. Para todo ε>0, existen r y p suficientemente pequeñas tales que existe una estrategia EE s para la cual, si ambos jugadores la utilizan, los pagos correspondientes están en un entorno ε de (v, v). Para el Dilema del Prisionero, este Teorema 2 afirma que existe alguna estrategia EE que logra (aproximadamente) la cooperación plena. ¿Qué forma tendría esta estrategia? Como sucede con ALT, CC es demasiado inflexible cuando p es positiva: un error lleva a D para siempre. La estrategia Tit-for-tat o de represalias equivalentes (jugar C en la primera iteración y a partir de entonces jugar lo que jugó el otro jugador en la iteración previa), enfatizada por Axelrod y Hamilton41 también puede estar sujeta a desencaminarse como consecuencia de errores. Por ejemplo, si el jugador fila (por error) juega D en la primera iteración, Tit-for-tat tendrá un jugador columna que lo seguirá con D en la segunda iteración, lo que inducirá al jugador fila a jugar nuevamente D en la tercera iteración, etc. Es decir, se producirá una seguidilla de Ds que se interrumpirá sólo cuando alguien cometa otro error. Una estrategia más robusta es la siguiente:

40 Fudenberg, D. and E. Maskin (1990), “Evolution and Cooperation in Noisy Repeated Games”, American Economic Review, 80. Un juego bi-personal es simétrico si ambos jugadores disponen del mismo conjunto de acciones y si intercambiando a los jugadores los pagos correspondientes resultan intercambiados. 41 Axelrod, Robert and Hamilton, William D. (1981). "The Evolution of Cooperation." Science, 211.

XVI. Teoría de los juegos 464

jugar C en la primera movida, y a partir de allí jugar C si ambos jugadores jugaron C en la movida previa o si ninguno lo hizo. Esta estrategia es EE para los pagos dados por el Dilema del Prisionero. A fin de apreciar cómo estrategias EE pueden dar lugar a pagos que no llegan a la cooperación plena en juegos como el de la Batalla de los Sexos, vean el siguiente juego:

a b c d 0, 0 4, 1 0, 0 0, 0 a 1, 4 0, 0 0, 0 0, 0 b 0, 0 0, 0 0, 0 0, 0 c 0, 0 0, 0 0, 0 2, 2 d

Sea una estrategia s donde (i) se juega d siempre que en cada jugada pasada ya sea ambos jugadores jugaron d, o ninguno lo hizo; (ii) se juega a para siempre si el otro jugador fue el primero en desviarse de d; y (iii) se juega b para siempre si uno mismo fue el primero en desviarse de d. Puede mostrarse que s es EE para r y p suficientemente pequeñas. Empero, la combinación (d,d) genera pagos que no son fuertemente eficientes (en este ejemplo los pagos fuertemente eficientes suman 5). Hay un motivo debido al cual a pesar de esta ineficiencia, s es invulnerable a la invasión de mutantes: el “castigo” por desviarse de d es por sí mismo fuertemente eficiente – es decir, el juego genera pagos hasta (1, 4) o (4, 1) – y por tanto no hay forma de que un mutante pueda obtener un punto de apoyo contra s. 5. Algunos juegos simples42 El juego del ultimatum El juego del Ultimatum es un juego experimental de economía en el cual dos partes interactúan de manera anónima y sólo una vez, por lo que la reciprocidad no es un problema. El primer jugador propone cómo dividir una determinada suma de dinero con el segundo. Si éste último rechaza la oferta, nadie obtiene nada. En cambio, si la acepta, el primer jugador obtiene lo que propuso y, el segundo, el resto. La complejidad de la experiencia radica en el mejor resultado a obtener, es decir, ninguno de los dos jugadores preferiría irse con las manos vacías, pero el jugador 1 sabe que si no propone una repartición que beneficie a ambos de igual manera las posibilidades de que el jugador 2 acepte son menores. En contrapartida, el jugador 2 sabe que si acepta el beneficio será para ambos, (en mayor, igual o menor medida dependiendo de la primera elección) por lo que debe elegir si obtiene beneficio o no; a veces es mejor obtener 1 peso antes que nada, aunque el otro jugador obtenga 99 pesos. Por lo antedicho, el Juego del Ultimatum muestra cómo a veces, aún a costo de una pérdida existe la cooperación, aunque siempre en pos del mayor beneficio propio. Ambos jugadores deben suponer y manejar las probables respuestas del otro, lo que es complejo. Juego del dictador El juego del dictador es un juego muy simple de economía experimental, similar al juego del ultimatum. El primer jugador, el que propone, determina la asignación entre los dos jugadores de alguna dotación (como un premio en metálico). El que responde en este caso simplemente recibe

42 Estos juegos están extraídos de Wikipedia.

XVI. Teoría de los juegos 465

la cantidad de la dotación que no se ha asignado a sí mismo el que propone. El papel del que responde es totalmente pasivo (no toma decisiones en el juego). El juego se ha usado para probar el modelo de conducta individual del homo œconomicus: si los individuos se preocuparan sólo de su propia economía, los que proponen se quedarían con todos los bienes y no darían nada al que responde. Sin embargo, Heinrich et al43 descubrieron en un amplio estudio cultural que los que proponen asignan una parte no nula de la dotación al que responde. (Este estudio de 2004 es una extensión de desarrollos anteriores en el juego del dictador y en el de la impunidad). Este resultado demuestra que los que proponen fallan al maximizar su propia utlidad esperada, o bien que la función de utilidad de los que proponen incluye los beneficios reducidos para otros44. Sin embargo, se han propuesto otras explicaciones, como la hipótesis del anonimato que dice que el experimento no está correctamente diseñado para probar la conducta "altruista", ya que la presencia del experimentador impulsa al que propone a evitar la aparición de la "codicia". Juego del gallina El juego del gallina (game of chicken) es aquel en el que cada uno de los dos jugadores conduce un vehículo en dirección al del contrario y el primero que se desvía de la trayectoria de choque pierde y es humillado por comportarse como un gallina. En la práctica, sólo algunos adolescentes o jóvenes excesivamente impulsivos juegan al juego del gallina. El juego se basa en la idea de crear presión hasta que uno de los participantes se eche atrás. La expresión "juego del gallina" se aplica como metáfora a una situación en la que dos bandos se enzarzan en una escalada en la que no tienen nada que ganar y en la que sólo el orgullo evita que se echen atrás. Bertrand Russell comparó la carrera armamentística y la escalada nuclear al juego del gallina. Uno de los primeros ejemplos de juego del gallina se da en la película Rebelde sin causa, aunque en aquella versión los jugadores conducen sus autos hacia un precipicio, y el primero en saltar es el gallina. La versión en que los conductores kamikazes se dirigen hacia el contrario se considera la normal. Es más frecuente que el juego aparezca en el argumento del cine o la literatura antes que en la vida real. La versión moderna del juego ha sido objeto de investigación en la teoría de juegos, en la que está asociado a los juegos que no son de suma cero. El principio subyacente es un importante método de negociación. Se puede decir que es una estrategia en la que cada una de las partes retrasa hacer concesiones hasta que el final del período de negociación es inminente. La presión psicológica puede obligar a un negociador a ceder para evitar un resultado negativo. Puede tratarse de una táctica muy peligrosa, ya que si ninguna de las partes cede se producirá una colisión. Como la "pérdida" que supone girar es trivial en comparación a la colisión que se producirá si ninguno gira, la estrategia más razonable sería girar antes de que el choque pueda producirse. Aún así, si uno cree que su oponente es razonable, uno puede también decidir no girar, en la creencia de que el rival será razonable y decidirá girar, convirtiendo al otro en ganador. Esta

43 Henrich, Joseph, Robert Boyd, Samuel Bowles, Colin Camerer, Ernst Fehr, y Herbert Gintis (2004) Foundations of Human Sociality: Economic Experiments and Ethnographic Evidence from Fifteen Small-Scale Societies. Oxford University Press. 44 Por ejemplo, el modelo de "Aversión equitativa" propuesto por Ernst Fehr del estudio de arriba de Henrich et al.

XVI. Teoría de los juegos 466

estrategia inestable se puede enunciar de modo formal diciendo que existe más de un equilibrio de Nash para este juego, si llamamos equilibrio al par de estrategias en la que ninguno de los jugadores gana cambiando su estrategia mientras que la del otro sigue siendo la misma. (En este caso, los equilibrios son las dos situaciones en las que un jugador gira y el otro no.) Una táctica para este juego es anunciar las propias intenciones de modo convincente antes de que el juego comience. Por ejemplo, si uno de los bandos bloquea de modo ostentoso el volante de su vehículo antes del comienzo del duelo, será más probable que el otro gire. Esto ilustra cómo, en algunas circunstancias, reducir las propias opciones puede ser una buena estrategia. Un ejemplo de esto en el mundo real sería el manifestante que se encadena a un objeto para que ninguna amenaza lo obligue a moverse, ya que no puede. Otro ejemplo similar lo hemos visto cuando un niño con buenos instintos estratégicos fuerza un resultado favorable bajo la amenaza de suicidio. La matriz de pagos para el juego del gallina es la que se ve a continuación, en la que cooperación es girar y no cooperación seguir conduciendo:

Cooperar No Cooperar 0, 0 -1, +1 Cooperar

+1, -1 -20, -20 No Cooperar Este modelo da por supuesto que uno escoge una estrategia antes de empezar a jugar y se mantiene en la misma lo cual no es realista, ya que si un jugador ve que el otro gira pronto, puede seguir en línea recta, sin importar cuáles fueran sus planes iniciales. En este modelo, en contraste con el dilema del prisionero, en el que una acción es siempre la mejor, uno siempre debe hacer lo contrario de lo que el otro jugador vaya a hacer. Caza del ciervo La caza del ciervo es un juego que describe un conflicto entre seguridad y cooperación social. Otros nombres para este juego o sus variantes son "juego de la seguridad", "juego de coordinación" y "dilema de la credibilidad". Jean-Jacques Rousseau describió una situación en la que dos individuos van a cazar. Cada uno elige cazar un ciervo o una liebre. Cada jugador debe elegir una acción sin conocer la del otro. Si un individuo caza un ciervo, debe cooperar con su compañero para tener éxito. Un jugador individual puede cazar una liebre por sí mismo, pero una liebre vale menos que un ciervo. Esta situación se considera una analogía importante con la cooperación social.

Jean-Jacques Rousseau (1712-1778)

Un ejemplo de la matriz de pagos para la caza del ciervo sería el siguiente:

Ciervo Liebre Ciervo 4, 4 0, 3 Liebre 3, 0 3, 3

XVI. Teoría de los juegos 467

Aunque muchos autores destacan el Dilema del prisionero como el juego que mejor representa el problema de la cooperación social, algunos creen que la caza del ciervo representa un contexto tan (o más) interesante en el que cabe estudiar la cooperación y sus problemas45. Hay una relación sustancial entre la caza del ciervo y el dilema del prisionero. En biología muchas circunstancias que se han asociado con el dilema del prisionero también se pueden interpretar como caza del ciervo, dependiendo de la manera como sea premiada la adaptación al medio. Es también el caso de algunas interacciones humanas que parecen ser dilemas del prisionero pero podrían ser de hecho cazas del ciervo. Por ejemplo, supóngase que hay planteado un dilema del prisionero como el mostrado a continuación:

Cooperar Traicionar Cooperar 4, 4 0, 5 Traicionar 5, 0 3, 3

Pero en ocasiones los jugadores que traicionan a los que cooperan son castigados por su traición. Por ejemplo, suponga que el castigo esperado es -2, entonces la imposición de este castigo convierte el dilema del prisionero en una caza del ciervo. Además del ejemplo sugerido por Rousseau, David Hume proporciona un conjunto de ejemplos que son cazas del ciervo. Uno de ellos consiste en dos individuos que deben remar en un bote. Si los dos eligen remar entonces pueden mover el bote. Sin embargo, si uno de ellos no rema, el otro gasta sus energías. En el segundo ejemplo de Hume dos vecinos quieren drenar un prado. Si los dos trabajan en el drenaje tienen éxito, pero si uno no hace su parte el prado no se drena. Hay muchas conductas animales que representan cazas del ciervo. Por ejemplo, la coordinación del moho del cieno. En momentos de tensión, estas bacterias se agregarán para formar un cuerpo mayor. Si todas actúan juntas se podrán reproducir, sin embargo, el éxito depende de la cooperación de muchas bacterias. Además, las prácticas de caza de la orca son un ejemplo de caza del ciervo. Las orcas cooperan acorralando grandes bancos de peces hasta la superficie y les aturden golpeándoles con sus colas. Dado que esta estrategia requiere que los peces no tengan forma de escapar, hace falta la cooperación de muchas orcas. La paradoja de Newcomb La paradoja de Newcomb es el estudio de un juego entre dos jugadores, uno de los cuales puede predecir el futuro. La paradoja de Newcomb se considera una paradoja porque lleva a una auto-contradicción. La causalidad inversa está definida en el problema, por lo que no puede haber libre albedrío. Al mismo tiempo, el libre albedrío está definido en el problema, de otro modo, el jugador no estaría realizando una verdadera elección. Esta paradoja fue formulada por William Newcomb, del laboratorio "Lawrence Livermore" en la Universidad de California. Robert Nozick la dio a conocer a la comunidad filosófica en 1969, y apareció en la columna de Martin Gardner en Scientific American en 1974. En este juego hay dos participantes: un oráculo capaz de predecir el futuro y un jugador normal. Al jugador se le presentan dos cajas: una abierta que contiene $1000 y una cerrada que contiene, o $1.000.000 o $0. El jugador debe decidir si quiere recibir el contenido de ambas cajas o sólo el de la caja cerrada. 45 Skyrms, Brian. (2007) La caza del ciervo y la evolución de la estructura social. Editorial Melusina.

XVI. Teoría de los juegos 468

La complicación consiste en que anteriormente, el oráculo ha vaticinado lo que va a escoger el jugador. Si vaticina que el jugador se llevará sólo la caja cerrada, pondrá $1.000.000 dentro de esa caja. Si vaticina que el jugador se llevará las dos cajas, dejará vacía la caja cerrada. El jugador conoce el mecanismo del juego, pero no la predicción, que ya ha sido realizada. ¿Debería el jugador llevarse ambas cajas o sólo la cerrada? La matriz de pagos del juego es la siguiente:

El oráculo vaticina que el jugador escogerá la caja

cerrada

El oráculo vaticina que el jugador escogerá ambas cajas

El jugador escoge la caja cerrada

$1.000.000 $0

El jugador escoge ambas cajas

$1.001.000 $1.000

Si el oráculo acierta el 100% de las veces, si el jugador se lleva sólo la caja cerrada, obtendrá $1.000.000. Si el jugador se lleva ambas cajas, la caja cerrada estará vacía, por lo que sólo se llevará $1.000. Según este razonamiento, el jugador deberá escoger siempre la caja cerrada. Pero en el momento en el que el jugador se acerca a las cajas para hacer su elección, su contenido ya está definido. La caja cerrada o tiene algo o no lo tiene, pero es demasiado tarde para cambiar su contenido. El jugador debe llevarse el contenido de ambas cajas, ya que tenga lo que tenga la caja cerrada obtendrá $1000 más, porque de todos modos se llevará la cerrada. Según este razonamiento, el jugador debe escoger siempre llevarse las dos cajas. En su artículo de 1969, Nozick comenta que "Casi todo el mundo tiene claro lo que debe hacer. El problema consiste en que la gente se divide casi a la mitad sobre cuál es la solución al problema, con un gran porcentaje que cree que la otra mitad está equivocada."46 Los filósofos han propuesto muchas soluciones a esta paradoja. Algunos han sugerido que una persona racional escogerá ambas cajas, y una irracional sólo la cerrada, de modo que las personas irracionales tienen ventaja en el juego. Otros han afirmado que una persona racional escogerá ambas cajas, mientras que una irracional sólo la cerrada, de modo que las personas racionales tienen ventaja en el juego (ya que un oráculo perfecto no puede existir). Y otros dicen que en un mundo con oráculos perfectos (o máquinas del tiempo, ya que una máquina del tiempo puede usarse como mecanismo para hacer los vaticinios) la causalidad puede invertirse. Si una persona conoce realmente el futuro, y este conocimiento afecta a sus acciones, entonces los eventos en el futuro causarán efectos en el pasado. La elección del jugador habrá causado la acción del oráculo. Algunos han concluido que si las máquinas del tiempo o los oráculos perfectos existiesen, entonces no puede haber libre albedrío y el jugador escogerá lo que está destinado a escoger. Otros afirman que la paradoja muestra que es imposible conocer el futuro. Algunos filósofos encuentran equivalente esta paradoja a la paradoja del viaje en el tiempo. En ella, una persona viaja atrás en el tiempo, lo que produce una cadena de eventos que evitan que eso suceda. Un análisis desde la perspectiva de la mecánica cuántica elude la incompatibilidad del libre albedrío y la causalidad inversa poniendo a la caja cerrada, como al gato de Schrödinger,

46 Nozick, Robert (1969), "Newcomb's Problem and Two principles of Choice," in Essays in Honor of Carl G. Hempl, ed. Nicholas Rescher, Synthese Library (Dordrecht, Holland: D. Reidel).

XVI. Teoría de los juegos 469

en un estado de superposición hasta el momento en el cual se realiza la elección. La caja está al mismo tiempo llena y vacía. Un cosmólogo que cree en múltiples mundos, concluiría que la acción del oráculo da como resultado dos flujos temporales paralelos: uno en el que ha puesto algo en la caja y otro donde la ha dejado vacía. La teoría de los mundos paralelos lleva generalmente a la conclusión de que tanto el libre albedrío como la causalidad son ilusiones creadas por la correspondencia entre la consciencia y una memoria específica del flujo temporal. La urna de cristal Hay una extensión de la paradoja de Newcomb, en la cual se pregunta cómo cambiaría el resultado si la caja cerrada fuese una urna de cristal. ¿Qué debería escoger el jugador? Si ve $1.000.000 en la urna, entonces debería tomar ambas cajas, y llevarse tanto los $1.000.000 como los $1.000. Si ve la urna vacía, puede enfadarse cuando se ve privado de una posibilidad de llevarse el premio gordo, y escoger sólo la urna para demostrar que el juego es un fraude. En ambos casos, sus acciones pueden ser opuestas a lo que había sido vaticinado, lo que contradice la premisa de que la predicción es siempre correcta. Algunos filósofos dicen que la versión con la urna de cristal de la paradoja de Newcomb es prueba de que:

Es imposible conocer el futuro El conocimiento del futuro sólo es posible en casos en los que dicho conocimento no

impida que ese futuro tenga lugar El universo conspirará para prevenir los bucles causales autocontradictorios (a través de,

por ejemplo, el principio de autoconsistencia de Novikov 47). El jugador puede, accidentalmente, hacer la elección equivocada, o puede malinterpretar

las reglas, o la máquina del tiempo/vaticinio puede fallar. Supóngase que el oráculo no tiene un conocimiento especial del futuro, y el jugador lo sabe. Se puede aplicar entonces un análisis mediante teoría de juegos para el caso de múltiples rondas con memoria. Si el jugador quiere maximizar su beneficio y el oráculo quiere maximizar el acierto de sus vaticinios, el jugador debe escoger siempre la caja cerrada. Sin embargo, si el jugador deserta de esa estrategia y escoge ambas cajas, se beneficiará esa ronda, pero el oráculo se equivocará y probablemente se vengará. El equilibrio de Nash (donde cada deserción de las estrategias escogidas no da beneficios) surge cuando el jugador escoge siempre llevarse las dos cajas y el oráculo predice siempre que escogerá las dos cajas (esto da un beneficio de $1000 y una predicción perfecta cada vez) o cuando ambos escogen siempre la caja cerrada (lo que da un beneficio de $1.000.000 y una predicción perfecta siempre). Un jugador inteligente tratará de moverse del primer equilibrio al segundo.

47 El Principio de consistencia de Novikov, también conocido como la Conjetura de consistencia de Novikov, es un principio desarrollado por el Doctor Igor Novikov a mediados de los 80 para resolver los problemas de las paradojas en los viajes a través del tiempo. Simplemente, el principio de consistencia de Novikov afirma que si un evento existe y provoca una paradoja, o cualquier cambio al pasado que la provoque, entonces la probabilidad de ese evento es cero.

XVI. Teoría de los juegos 470

Ahora consideremos un caso distinto: el oráculo no tiene un conocimiento especial del futuro, pero el jugador cree que lo tiene. Los lectores de un artículo en Scientific American respondieron, en una proporción de 5 a 2, a favor de escoger sólo la caja cerrada. Un oráculo que trabaje con esos datos (y suponiendo que el jugador sea un lector de Scientific American) puede decidir que puede alcanzar una tasa de aciertos del 71% vaticinando que el jugador escogerá la caja cerrada. En este caso, el problema se convierte rápidamente en un análisis de preferencias estadísticas en términos de tolerancia hacia el riesgo. Esto puede verse más fácilmente si se cambia el valor de los premios. Por ejemplo, si el contenido de la caja abierta se reduce a $1, casi todos los jugadores escogerían la caja cerrada (el valor reducido, aunque seguro, del dólar no justifica el riesgo). Casi todos los jugadores escogerían ambas cajas si el contenido de la caja abierta fuese de $900.00048.

48 V.Gardner, Martin (1974), "Mathematical Games," Scientific American, March 1974, p. 102; reimpreso con addendum y bibliografía anotada en su libro The Colossal Book of Mathematics.