Introduction
De nombreux français aiment suivre les matchs de basket américain du championnat NBA, des stars, du spectacle et surtout plein de matchs à regarder, tout le temps, tous les jours. Les fans inconditionnels peuvent en regarder plusieurs par jours, mais il faut bien reconnaitre que cela peut parfois être un peu lassant de suivre son équipe favorite (chaque équipe jouant 82 matchs par saison avec une moyenne de 3 matchs par semaine). On finit parfois par regarder distraitement un match, surtout si on souhaite les regarder en direct (le décalage horaire implique que ces matchs débutent principalement vers 2-3h du matin).
Bref, il faut du courage et parfois, à 4h30 du matin on se demande si il y a un intérêt à regarder le dernier quart-temps du match alors que son équipe favorite mène de 20 points et si on ne serait pas mieux dans son lit à dormir un peu. Rassurez-vous, cet article va vous aider à peser le pour et le contre entre votre télé et votre lit.
Principe
La méthode est simple et se base sur des analyses déjà maintes fois réalisées par de nombreux sites et qui se nomme "win probability" (probabilité de victoire). L'idée est de se baser sur des éléments objectifs (qualité de l'équipe, déroulement du match, score) afin de déterminer à chaque instant du match quelle est le probabilité de chaque équipe de s'imposer. Pour cela, on s’appuie sur les données historiques et on infère les probabilités de succès. Par exemple, si 990 sur 1000 où une équipe qui menait de 20 points à la fin du troisième quart-temps a gagné alors on en déduit que dans le futur, si une équipe mène de 20 points elle aura 99% de chance de s'imposer.
Ça c'est la version basique. On va donc extraire les données et utiliser un modèle mathématique pour "lisser" les résultats. Pour cet article, on restera dans un modèle simple qui ne prend en compte que la différence du score et le temps de match restant. Les sites qui proposent ce type de statistiques (comme ESPN par exemple) prennent en compte les différences de niveau entre les équipes, quelle équipe à la balle et pleins d'autres paramètres supplémentaires.
Il est tout à fait possible d'obtenir ces données et de calculer ces modèles (ils sont d'ailleurs plus justes) mais les résultats obtenus sont moins simples à synthétiser. Il me semble plus simple de pouvoir conclure que :
- Si une équipe mène de 7 points à 6 minutes de la fin alors elle a 90% de chance de gagner
plutôt que
- Si une équipe mène de 7 points à 6 minutes de la fin et qu'elle est mieux classée que son adversaire mais qu'elle joue à l’extérieur et qu'elle a déjà joué le jour d'avant et que son meilleur marqueur est blessé alors elle a 86.3% de chance de gagner.
C'est surement plus précis mais ça fait beaucoup de cas possibles à gérer et à se rappeler.
Récolte des données
Pour analyser ces probabilités il faut donc regarder ce qu'il s'est passé dans les matchs précédent. Les sites spécialisés disposent de bases extrêmement complètes pour faire ces analyses. Jusqu'à preuve du contraire vous n'êtes pas en train de lire un article sur le site d'ESPN il faut donc se débrouiller autrement pour récupérer ces données déjà au bon format. La technique est simple (et bourrine). Elle consiste a aller sur le site basketball-reference.com qui compile tous les matchs NBA et d'extraire le résumé de chaque match action par action (play-by-play). Pour chaque match (au moins depuis 2001) chaque action du match est détaillée (quel joueur a raté un shoot, à quel moment, quel était le score....). On obtient alors ce type de tableau :
Exemple de play-by-play |
Il est donc possible, pour chaque seconde du match de connaitre le score et donc le nombre de point d'avance (ou de retard) qu'avait le futur vainqueur. On extrait donc toutes ces données depuis 2001 jusqu'à la saison 2017-2018 (playoffs inclus), ce qui nous fait 23219 matchs. Nous nous contenterons pour la suite de n'étudier que les probabilités de victoire durant le dernier quart-temps (qui dure 12 minutes). On conserve donc pour chaque match les informations des 720 dernières secondes (12 minutes x 60 secondes) ce qui fait donc un fichier de 16.7 millions de lignes (c'est gros mais ça se gère, et puis de toute façon c'est l'ordinateur qui calcule, on ne le fait pas à la main) qui ressemble a cela :
Extrait des données |
On a donc dans la première colonne l'identifiant du match, la seconde colonne contient le nombre de secondes restantes dans le match et la troisième colonne le nombre de points d'avance qu'avait l'équipe qui s'est imposée. (Ce fichier contient des colonnes supplémentaires mais qui ne sont pas utiles pour le modèle que nous allons utiliser).
Il est donc possible de calibrer le modèle puisque pour chaque seconde nous avons 23219 observations. Prenons par exemple le nombre de points d'écarts à 60 secondes de la fin du match. Le graphique suivant nous montre qu'il y a eu 1225 matchs où l'écart à 60 secondes de la fin était de 1 point (première barre du graphique) mais seulement 433 matchs où l'écart à 60 secondes de la fin était de 20 points. En effet, En bleu on représente le nombre de fois où l'équipe qui menait au score (toujours à 60 secondes de la fin) s'est finalement imposée et en orange le nombre de fois où l'équipe qui était menée s'est finalement imposée.
En reprenant les 1225 matchs où il y avait 1 point d'écart à 60 secondes de la fin, 826 fois l'équipe qui menait à ce moment du match s'est imposée (barre bleue) et 399 fois c'est l'équipe qui état menée qui s'est imposée (barre orange). Cela implique donc que la probabilité "observée" de gagner un match lorsque l'on mène de 1 point à 60 secondes de la fin est de 826/1225 = 67.4% (les match se finissant en prolongation n'ont pas été comptabilisés afin de simplifier le calcul)
On constate aisément qu'au-delà de 10 points d'avance à 1 minute de la fin aucun retournement de situation n'a jamais eu lieu (sur les 9637 fois où ce cas est arrivé). Cela ne veut pas dire que ça ne se produira jamais (on fait juste de l'inférence) mais cela veut dire que ça n'est jamais arrivé. Si vous vous trouvez dans ce cas-là, à regarder un match au beau milieu de la nuit et que votre équipe est menée de plus de 10 points à une minute de la fin, je vous conseille d'aller vous coucher, vous allez vous faire du mal pour rien (ou si vous restez vous verrez peut-être un moment historique). En effet, la seule fois où une équipe menée de 10 points a réussi à s'imposer c’était le fameux 9 décembre 2009, Houston Rockets contre San Antonio Spurs avec 13 points en 35 secondes de Tracy McGrady (a regarder absolument si vous ne l'avez pas déjà vu).
Nous venons de voir que si une équipe menait d'un point à 60 secondes de la fin, elle s'est imposée 67% du temps, si elle menait de deux points c'est 84% de victoire, 3 points c'est 90%, 4 points 96% etc... Il suffit alors de reproduire cette analyse pour toutes les autres secondes possible du dernier quart-temps.
Analyse
Il est alors possible de créer un modèle qui ajuste ces données. Il est en effet nécessaire de lisser un peu ces données car il existe une petite variabilité entre les différente mesures. Après avoir réalisé ces ajustements il est possible de représenter graphiquement les différents seuils de victoire afin d'avoir un résultat plus synthétique.
Si vous êtes très fatigués et que vous voulez aller vous coucher, il faut regarder la courbe des 80%. Elle signifie (par exemple) que 4 fois sur 5, l'équipe qui menait de 5 points à 7 minutes de la fin (ou de 6 points a 12 minutes de la fin) s'est imposée.
Si vous voulez en revanche être sur du résultat avant de vous coucher, prenez la courbe à 99%. Elle montre que si une équipe mène de 10 points a 3 min 30 de la fin elle gagnera 99 fois sur 100 (idem si elle mène de 18 points à 12 minutes de la fin).
Je conseillerais plutôt la courbe à 90%. Si une équipe mène de 10 points à 12 minutes de la fin elle gagnera 9 fois sur 10. Vous économiserez donc un quart-temps inutile la plupart du temps.
Conclusion
Le plus amusant dans cette analyse n'est pas forcément l'ajustement du modèle (qui est forcément peu complexe afin d'être plus synthétique) mais plutôt de s'amuser à récupérer toutes ces données et les formater pour obtenir un résultat concis qui répond à une question que chaque fan de basket à pu se poser :"Est-ce que mon équipe a encore une chance de gagner ce match?". Évidemment une multitude de paramètres rentrent en compte et c'est ce qui fait la glorieuse incertitude du sport, mais je rappelle de nombreuses fois avoir espéré que mon équipe favorite remonte ces 6 petits points de retard en deux minutes. Ça semble faisable mais ça n'arrive qu'une fois sur 40. Autant dire qu'il ne faut pas trop espérer.