Algorithme minimax — Wikipédia

L'algorithme minimax (aussi appelé algorithme MinMax) est un algorithme qui s'applique à la théorie des jeux^[1] pour les jeux à deux joueurs à somme nulle (et à information complète) consistant à minimiser la perte maximum (c'est-à-dire dans le pire des cas). Pour une vaste famille de jeux, le théorème du minimax de von Neumann assure l'existence d'un tel algorithme^[2], même si dans la pratique il n'est souvent guère aisé de le trouver. Le jeu de hex est un exemple où l'existence d'un tel algorithme est établie et montre que le premier joueur peut toujours gagner, sans pour autant que cette stratégie soit connue.

Il amène l'ordinateur à passer en revue toutes les possibilités pour un nombre limité de coups et à leur assigner une valeur qui prend en compte les bénéfices pour le joueur et pour son adversaire. Le meilleur choix est alors celui qui minimise les pertes du joueur tout en supposant que l'adversaire cherche au contraire à les maximiser (le jeu est à somme nulle).

Il existe différents algorithmes basés sur MinMax permettant d'optimiser la recherche du meilleur coup en limitant le nombre de nœuds visités dans l'arbre de jeu, le plus connu est l'élagage alpha-bêta. En pratique, l'arbre est souvent trop vaste pour pouvoir être intégralement exploré (comme pour le jeu d'échecs ou de go). Seule une fraction de l'arbre est alors explorée.

Dans le cas d'arbres très vastes, une IA (système expert, évaluation par apprentissage à partir d'exemple, etc.) peut servir à élaguer certaines branches sur la base d'une estimation de leur utilité. C'est ce qui est employé, par exemple, dans le cadre du go.

Principe

L'algorithme minimax visite l'arbre de jeu pour faire remonter à la racine une valeur (appelée « valeur du jeu ») qui est calculée récursivement de la façon suivante :

$minimax(p) = f (p)$ si $p$ est une feuille de l’arbre où $f$ est une fonction d’évaluation de la position du jeu ;
$minimax(p) = max(minimax(O 1), \dots, minimax(O n))$ si $p$ est un nœud Joueur avec fils $O 1, \dots, O n$ ;
$minimax(p) = min(minimax(O 1), \dots, minimax(O n))$ si $p$ est un nœud Opposant avec fils $O 1, \dots, O n$ .

Exemple

Dans le schéma ci-dessus, les nœuds gris représentent les nœuds joueurs et les bleus les nœuds opposants. Pour déterminer la valeur du nœud A, on choisit la valeur maximum de l’ensemble des nœuds B (A est un nœud joueur). Il faut donc déterminer les valeurs des nœuds B qui reçoivent chacun la valeur minimum stockée dans leurs fils (les nœuds B sont opposants). Les nœuds C sont des feuilles, leur valeur peut donc être calculée par la fonction d’évaluation.

Le nœud A prend donc la valeur 5. Le joueur doit donc jouer le coup l’amenant en B2. En observant l’arbre, on comprend bien que l’algorithme considère que l’opposant va jouer de manière optimale : il prend le minimum. Sans ce prédicat, on choisirait le nœud C1 qui propose le plus grand gain et le prochain coup sélectionné amènerait en B1. Mais alors on prend le risque que l’opposant joue C3 qui propose seulement un gain de 3.

En pratique, la valeur théorique de la position P ne pourra généralement pas être calculée. En conséquence, la fonction d’évaluation sera appliquée sur des positions non terminales. On considérera que plus la fonction d’évaluation est appliquée loin de la racine, meilleur est le résultat du calcul. C'est-à-dire qu’en examinant plus de coups successifs, nous supposons obtenir une meilleure approximation de la valeur théorique donc un meilleur choix de mouvement.

Simplification negamax

Si l’ensemble des valeurs prises par $f (p)$ est symétrique par rapport à 0^[1] une fonction $g (p)$ peut être définie telle que :

$g (p) = f (p)$ si nous sommes sur un nœud joueur
$g (p) = - f (p)$ si nous sommes sur un nœud opposant

Ainsi on définit negamax à partir de cette nouvelle fonction :

$negamax(p) = g (p)$ si P est terminale
$negamax(p) = max(-NegaMax(p i))$ sinon

À partir du même exemple que pour l’algorithme Minmax, voici l'arbre résultant :

Pseudocode

Le pseudocode de l'algorithme minimax de profondeur limitée est présenté ci-dessous :

function minimax(node, depth, maximizingPlayer) is     if depth = 0 or node is a terminal node then         return the heuristic value of node     if maximizingPlayer then         value := −∞         for each child of node do             value := max(value, minimax(child, depth − 1, FALSE))     else (* minimizing player *)         value := +∞         for each child of node do             value := min(value, minimax(child, depth − 1, TRUE))     return value

(* Initial call *) minimax(origin, depth, TRUE)

Applications

Minimax et théorie statistique de choix

Dans la théorie statistique de choix, nous avons un estimateur $δ$ qui vise à trouver un paramètre $θ \in Θ$ . Dans ce cadre, $θ$ 'minimax' si :

\sup _{\theta }R(\theta ,{\tilde {\delta }})=\inf _{\delta }\sup _{\theta }R(\theta ,\delta ).

Élagage alpha-bêta

Cet algorithme peut être optimisé grâce à l'implémentation de la technique dite de l'élagage alpha-bêta^[1]. L'algorithme alpha bêta accélère la routine de recherche minimax en éliminant les cas qui ne seront pas utilisés. Cette méthode utilise le fait que tous les autres niveaux de l’arbre seront maximisés et que tous les autres niveaux seront minimisés.

Annexes

Notes

↑ ^{a b et c} Jean-Marc Alliot et Thomas Schiex, « La programmation des jeux », dans Intelligence artificielle et Informatique théorique, Cepadues, 1994 (ISBN 2-85428-324-4)
↑ Mais si les joueurs ne connaissent pas les coups joués par leur adversaire, comme dans le jeu pierre-feuille-ciseaux, cet algorithme ne conduit qu'à des stratégies demandant l'utilisation du hasard; voir l'article sur le théorème pour plus de détails

Bibliographie

A. Aho, J. Hopcroft, J. Ullman, Structures de données et algorithmes, Paris, InterEditions, 1987, 450 p. (ISBN 978-2-7296-0194-2, BNF 34973701), « Conceptions et stratégies algorithmiques »

Articles connexes

Liens externes

(en) explication de l'algorithme minimax pour le jeu de tron dans le cadre d'un google ai challenge

[alliot94-1] {a b et c} Jean-Marc Alliot et Thomas Schiex, « La programmation des jeux », dans Intelligence artificielle et Informatique théorique, Cepadues, 1994 (ISBN 2-85428-324-4)

[2] Mais si les joueurs ne connaissent pas les coups joués par leur adversaire, comme dans le jeu pierre-feuille-ciseaux, cet algorithme ne conduit qu'à des stratégies demandant l'utilisation du hasard; voir l'article sur le théorème pour plus de détails

[1]

[2]

v · m Théorie des jeux
Définitions	Détermination Escalade d'engagement Extensive-form game (en) First-player and second-player win (en) Game complexity (en) Graphical game (en) Hierarchy of beliefs (en) Information set (en) Jeu bayésien Jeu coopératif Jeu résolu Jeu sous forme normale Préférence Jeu séquentiel Simultaneous game (en) Simultaneous action selection (en) Succinct game (en)
Équilibre économique (concepts)	Équilibre de Nash Équilibre parfait en sous-jeux Mertens-stable equilibrium (en) Bayesian Nash equilibrium (en) Perfect Bayesian equilibrium (en) Trembling hand (en) Proper equilibrium (en) Epsilon-equilibrium (en) Équilibre corrélé Équilibre séquentiel Quasi-perfect equilibrium (en) Stratégie évolutivement stable Risk dominance (en) Cœur Valeur de Shapley Optimum de Pareto Quantal response equilibrium (en) Self-confirming equilibrium (en) Strong Nash equilibrium (en) Markov perfect equilibrium (en)
Stratégies	Dominance stratégique Stratégie pure Stratégie mixte Strategy-stealing argument (en) Coopération-réciprocité-pardon Grim trigger (en) Collusion Raisonnement rétrograde Induction vers l'avant Stratégie de Markov (en)
Classes de jeux	Symmetric game (en) Perfect information (en) Repeated game (en) Signaling game (en) Screening game (en) Conversation libre Jeu à champ moyen Jeu à somme nulle Théorie des mécanismes d'incitation problèmes de négociation Stochastic game (en) n-player game (en) Large Poisson game (en) Nontransitive game (en) Global game (en) Strictly determined game (en) Jeu de potentiel
Jeux	Dilemme du prisonnier Dilemme facultatif du prisonnier Dilemme du voyageur Jeu de coordination Stratégie du bras de fer Jeu du mille-pattes Dilemme du volontaire Enchère d'un dollar Jeu de la guerre des sexes Chasse au cerf Jeu de l'appariement des sous Jeu de l'ultimatum Pierre-papier-ciseaux Jeu du pirate Jeu du dictateur Jeu des biens publics Jeu Blotto Guerre d'usure Problème du bar d'El Farol Partage équitable Fair cake-cutting (en) Cournot game Deadlock (en) Dilemme du dîner Concours de beauté de Keynes Poker Kuhn (en) Jeu de marchandage de Nash Prisoners and hats puzzle (en) Jeu de la princesse et du monstre Problème de Monty Hall Problème du rendez-vous
Theorèmes	Algorithme minimax Équilibre de Nash Purification theorem (en) Folk theorem (en) Revelation principle (en) Théorème d'impossibilité d'Arrow
Personnalités	Albert W. Tucker Amos Tversky Ariel Rubinstein Daniel Kahneman David K. Levine (en) David M. Kreps Donald B. Gillies (en) Drew Fudenberg Eric Maskin Harold W. Kuhn Herbert Simon Hervé Moulin Jean Tirole Jean-François Mertens (en) John Harsanyi John Maynard Smith Antoine-Augustin Cournot John Nash John von Neumann Kenneth Arrow Kenneth Binmore Leonid Hurwicz Lloyd Shapley Melvin Dresher (en) Merrill M. Flood (en) Oskar Morgenstern Paul Milgrom Peyton Young (en) Reinhard Selten Robert Axelrod Robert Aumann Robert B. Wilson Roger Myerson Samuel Bowles (en) Thomas Schelling William Vickrey
Voir aussi	All-pay auction (en) Élagage alpha-bêta Paradoxe de Bertrand Rationalité limitée Théorie des jeux combinatoires Confrontation analysis (en) Coopétition Liste des théoriciens du jeu Liste des jeux en théorie des jeux Perdant-perdant Topological game (en) Tragédie des biens communs Tyrannie des petites décisions