A quel moment devez-vous arrêter de regarder un match de basket NBA?

 Introduction

De nombreux français aiment suivre les matchs de basket américain du championnat NBA, des stars, du spectacle et surtout plein de matchs à regarder, tout le temps, tous les jours. Les fans inconditionnels peuvent en regarder plusieurs par jours, mais il faut bien reconnaitre que cela peut parfois être un peu lassant de suivre son équipe favorite (chaque équipe jouant 82 matchs par saison avec une moyenne de 3 matchs par semaine). On finit parfois par regarder distraitement un match, surtout si on souhaite les regarder en direct (le décalage horaire implique que ces matchs débutent principalement vers 2-3h du matin).

Bref, il faut du courage et parfois, à 4h30 du matin on se demande si il y a un intérêt à regarder le dernier quart-temps du match alors que son équipe favorite mène de 20 points et si on ne serait pas mieux dans son lit à dormir un peu. Rassurez-vous, cet article va vous aider à peser le pour et le contre entre votre télé et votre lit.

Principe

La méthode est simple et se base sur des analyses déjà maintes fois réalisées par de nombreux sites et qui se nomme "win probability" (probabilité de victoire). L'idée est de se baser sur des éléments objectifs (qualité de l'équipe, déroulement du match, score) afin de déterminer à chaque instant du match quelle est le probabilité de chaque équipe de s'imposer. Pour cela, on s’appuie sur les données historiques et on infère les probabilités de succès. Par exemple, si 990 sur 1000 où une équipe qui menait de 20 points à la fin du troisième quart-temps a gagné alors on en déduit que dans le futur, si une équipe mène de 20 points elle aura 99% de chance de s'imposer.
Ça c'est la version basique. On va donc extraire les données et utiliser un modèle mathématique pour "lisser" les résultats. Pour cet article, on restera dans un modèle simple qui ne prend en compte que la différence du score et le temps de match restant. Les sites qui proposent ce type de statistiques (comme ESPN par exemple) prennent en compte les différences de niveau entre les équipes, quelle équipe à la balle et pleins d'autres paramètres supplémentaires.
Il est tout à fait possible d'obtenir ces données et de calculer ces modèles (ils sont d'ailleurs plus justes) mais les résultats obtenus sont moins simples à synthétiser. Il me semble plus simple de pouvoir conclure que :
- Si une équipe mène de 7 points à 6 minutes de la fin alors elle a 90% de chance de gagner
plutôt que
- Si une équipe mène de 7 points à 6 minutes de la fin et qu'elle est mieux classée que son adversaire mais qu'elle joue à l’extérieur et qu'elle a déjà joué le jour d'avant et que son meilleur marqueur est blessé alors elle a 86.3% de chance de gagner.
C'est surement plus précis mais ça fait beaucoup de cas possibles à gérer et à se rappeler.

Récolte des données

Pour analyser ces probabilités il faut donc regarder ce qu'il s'est passé dans les matchs précédent. Les sites spécialisés disposent de bases extrêmement complètes pour faire ces analyses. Jusqu'à preuve du contraire vous n'êtes pas en train de lire un article sur le site d'ESPN il faut donc se débrouiller autrement pour récupérer ces données déjà au bon format. La technique est simple (et bourrine). Elle consiste a aller sur le site basketball-reference.com qui compile tous les matchs NBA et d'extraire le résumé de chaque match action par action (play-by-play). Pour chaque match (au moins depuis 2001) chaque action du match est détaillée (quel joueur a raté un shoot, à quel moment, quel était le score....). On obtient alors ce type de tableau :

Exemple de play-by-play
Il est donc possible, pour chaque seconde du match de connaitre le score et donc le nombre de point d'avance (ou de retard) qu'avait le futur vainqueur. On extrait donc toutes ces données depuis 2001 jusqu'à la saison 2017-2018 (playoffs inclus), ce qui nous fait 23219 matchs. Nous nous contenterons pour la suite de n'étudier que les probabilités de victoire durant le dernier quart-temps (qui dure 12 minutes). On conserve donc pour chaque match les informations des 720 dernières secondes (12 minutes x 60 secondes) ce qui fait donc un fichier de 16.7 millions de lignes (c'est gros mais ça se gère, et puis de toute façon c'est l'ordinateur qui calcule, on ne le fait pas à la main) qui ressemble a cela :

Extrait des données
On a donc dans la première colonne l'identifiant du match, la seconde colonne contient le nombre de secondes restantes dans le match et la troisième colonne le nombre de points d'avance qu'avait l'équipe qui s'est imposée. (Ce fichier contient des colonnes supplémentaires mais qui ne sont pas utiles pour le modèle que nous allons utiliser).

Il est donc possible de calibrer le modèle puisque pour chaque seconde nous avons 23219 observations. Prenons par exemple le nombre de points d'écarts à 60 secondes de la fin du match. Le graphique suivant nous montre qu'il y a eu 1225 matchs où l'écart à 60 secondes de la fin était de 1 point (première barre du graphique) mais seulement 433 matchs où l'écart à 60 secondes de la fin était de 20 points. En effet, En bleu on représente le nombre de fois où l'équipe qui menait au score (toujours à 60 secondes de la fin) s'est finalement imposée et en orange le nombre de fois où l'équipe qui était menée s'est finalement imposée.

 
En reprenant les 1225 matchs où il y avait 1 point d'écart à 60 secondes de la fin, 826 fois l'équipe qui menait à ce moment du match s'est imposée (barre bleue) et 399 fois c'est l'équipe qui état menée qui s'est imposée (barre orange). Cela implique donc que la probabilité "observée" de gagner un match lorsque l'on mène de 1 point à 60 secondes de la fin est de 826/1225 = 67.4% (les match se finissant en prolongation n'ont pas été comptabilisés afin de simplifier le calcul)

On constate aisément qu'au-delà de 10 points d'avance à 1 minute de la fin aucun retournement de situation n'a jamais eu lieu (sur les 9637 fois où ce cas est arrivé). Cela ne veut pas dire que ça ne se produira jamais (on fait juste de l'inférence) mais cela veut dire que ça n'est jamais arrivé. Si vous vous trouvez dans ce cas-là, à regarder un match au beau milieu de la nuit et que votre équipe est menée de plus de 10 points à une minute de la fin, je vous conseille d'aller vous coucher, vous allez vous faire du mal pour rien (ou si vous restez vous verrez peut-être un moment historique). En effet, la seule fois où une équipe menée de 10 points a réussi à s'imposer c’était le fameux 9 décembre 2009, Houston Rockets contre San Antonio Spurs avec 13 points en 35 secondes de Tracy McGrady (a regarder absolument si vous ne l'avez pas déjà vu).

Nous venons de voir que si une équipe menait d'un point à 60 secondes de la fin, elle s'est imposée 67% du temps, si elle menait de deux points c'est 84% de victoire, 3 points c'est 90%, 4 points 96% etc... Il suffit alors de reproduire cette analyse pour toutes les autres secondes possible du dernier quart-temps.

Analyse

Il est alors possible de créer un modèle qui ajuste ces données. Il est en effet nécessaire de lisser un peu ces données car il existe une petite variabilité entre les différente mesures. Après avoir réalisé ces ajustements il est possible de représenter graphiquement les différents seuils de victoire afin d'avoir un résultat plus synthétique.



Si vous êtes très fatigués et que vous voulez aller vous coucher, il faut regarder la courbe des 80%. Elle signifie (par exemple) que 4 fois sur 5, l'équipe qui menait de 5 points à 7 minutes de la fin (ou de 6 points a 12 minutes de la fin) s'est imposée.
Si vous voulez en revanche être sur du résultat avant de vous coucher, prenez la courbe à 99%. Elle montre que si une équipe mène de 10 points a 3 min 30 de la fin elle gagnera 99 fois sur 100 (idem si elle mène de 18 points à 12 minutes de la fin).
Je conseillerais plutôt la courbe à 90%. Si une équipe mène de 10 points à 12 minutes de la fin elle gagnera 9 fois sur 10. Vous économiserez donc un quart-temps inutile la plupart du temps.

Conclusion

Le plus amusant dans cette analyse n'est pas forcément l'ajustement du modèle (qui est forcément peu complexe afin d'être plus synthétique) mais plutôt de s'amuser à récupérer toutes ces données et les formater pour obtenir un résultat concis qui répond à une question que chaque fan de basket à pu se poser :"Est-ce que mon équipe a encore une chance de gagner ce match?". Évidemment une multitude de paramètres rentrent en compte et c'est ce qui fait la glorieuse incertitude du sport, mais je rappelle de nombreuses fois avoir espéré que mon équipe favorite remonte ces 6 petits points de retard en deux minutes. Ça semble faisable mais ça n'arrive qu'une fois sur 40. Autant dire qu'il ne faut pas trop espérer.


Probabilité et prénoms




Distribution des prénoms en fonction des années, en France de 1900 a 2017.

Quels sont les 10 prénoms les plus donnés chaque année et quel pourcentage d'enfants ont ces prénoms?

Pour se faire, il suffit pour chaque année (et chaque sexe) de lister les noms les plus fréquemment donnés et de le diviser par le nombre total d'enfants nés cette année-là. Dans les graphiques suivants, ces pourcentages sont cumulés. Ainsi, pour les filles, en 1900 on constate que le prénom le plus donné était Marie (écrit en bas du graphique) et qu'il représentait 20% des filles nées cette année-là! Le deuxième prénom le plus donné en 1900 (non-présenté dans le graphique) a été attribué a environ 5% des filles nées cette année-là. Ainsi, les deux prénoms les plus fréquemment donnés représentent 25% de filles nées en 1900 et le top 10 des prénoms féminins était porté par 45% des filles en 1900.
On constate aussi un pic en 1970 (avec les Nathalie en tête de liste) qui correspondait à environ 15% des prénoms donnés durant cette période. On constate dans les deux graphiques (filles et garçons) une tendance globale à la baisse puisque désormais, le top 10 des prénoms donnés aux bébés n'est porté que par 15% d'entre eux. Pour les garçons, le dernier pic a eu lieu dans les année 1940 avec un nombre important de Jean.
Avec ces données on peut aussi s'amuser à essayer de répondre à une question "fondamentalement" inutile :

Quelle est la probabilité que deux bébés (du même sexe) nés la même année et pris au hasard, portent le même prénom?

La question est plutôt simple et cette probabilité dépend fortement du fait qu'a une époque donnée, la quantité de prénom donnés aux bébés soit plus ou moins grande. Le calcul est le suivant :
Pj=i=1n(NijNij1Nj)NjP_j=\frac{\sum_{i=1}^n{ (N_{ij} \frac{N_{ij}-1}{N_j}) }}{N_j}
La probabilité Pj que deux personnes portent le même prénom pour l'année j est la somme des probabilités pour les n prénoms données cette année où Nij est le nombre de fois où le prénom i a été donné lors de l'année j. Et on pose Nj le nombre total d'enfant nés l'année j.

On obtient alors les graphiques suivant :
 
Pour les filles il y avait 5% de chances d'en trouver deux qui aient le même prénom en 1900 (et environ 0.1% actuellement)




Pour les garçons il y avait jusqu'à 4% de chances d'en trouver deux qui aient le même prénom dans les années 1940 (et environ 0.1% actuellement)


Les valeurs sont plutôt faibles et donc pas forcement très parlantes. Une autre méthode consiste à se demander quelle est la probabilité qu'au moins deux élèves aient le même prénom dans une classe de 30 élèves. Les amateurs reconnaitront une similitude avec l'énoncé du paradoxe des anniversaires. Cette question est habituellement posée sous la forme : Quelle est la probabilité qu'au moins deux personnes d'un groupe de N personnes aient un anniversaire en commun.Le paradoxe réside dans le fait que cet événement semble plutôt improbable alors que les calculs montrent qu'en réalité, dans un groupe de 30 personnes il y a 70% de chance qu'au moins deux d'entre eux aient la même date d'anniversaire. (Pour un groupe de 47 personne cette probabilité passe à 95%)

La différence avec le paradoxe des anniversaires c'est que dans le cas des prénoms, la probabilité d'apparitions chacun des prénoms n'est clairement pas la identique (alors que pour le paradoxe des anniversaires on considère que la probabilité d'être n'est un jour précis est de 1/365 quelque soit le jour -ce qui n'est pas forcément vrai du fait de variations saisonnières dans les naissances). Néanmoins en supposant que la répartition des naissances au cours de l'année n'est pas équiprobable, on peut montrer que le paradoxe en est renforcé (c'est a dire que les probabilités s'amléiorent)

Bref, le résultat sans plus attendre :



On se rend compte que dans quasiment toutes les classes de 30 élèves avant 1940 avaient des élèves ayant un prénom en commun. Actuellement, la probabilité se situe plutôt autour de 50% et tend à descendre encore plus.

La notion de prénoms efficaces

Le nombre de prénoms utilisés semble augmenter. Cependant si la plupart de ces prénoms ne sont utilisés que très rarement alors leur impact est limité. Sur les 6000 prénoms pour garçons utilisés en 2017, si 99% ne sont attribués qu'a un seul enfant, alors au final la majorité des garçons porterait un des prénom du top 10 et la variabilité ne serait pas forcément plus grande que dans les années 1940 où le top 10 des prénoms était porté par la moitié des petits garçons de l'époque. 
Pour comparer l'utilisation des prénoms on peut calculer, pour chaque année la valeur du nombre de "prénom efficace". Cette notion est héritée de la génétique (Ae : nombre d'allèles efficaces") et représente le nombre de prénoms nécessaire pour décrire la variabilité en supposant que leur fréquence est identique. Cette valeur du nombre de prénom efficace correspond exactement à l'inverse de la probabilité que deux personnes prises au hasard aient le même prénom. Ainsi, un nombre de "prénom efficace" de 70 signifie que deux enfants du même sexe (et né la même année) pris au hasard ont une chance sur 70 d'avoir le même prénom. Il s'agit donc exactement du même calcul que pour le paragraphe précédent.
Pour les filles on est passé de 18 prénoms efficaces à plus de 400. On a donc multiplié par 20 la variabilité des prénoms féminins et de manière inverse, on a divisé par 20 la probabilité que deux bébés aient le même prénom.
Pour les garçons on est passé de 40 prénoms efficaces (avec un minimum en 1943 a 25) à plus de 340. On a donc multiplié par 8 la variabilité des prénoms masculins. On constate donc qu'il y a plus de variabilité (plus d'originalité) actuellement dans le choix des prénoms féminin que masculins. Dans les deux cas on constate aussi et surtout une explosion de ces valeurs, qui ont a chaque fois plus que doublé depuis le début des années 2000 (elle a presque même triplé pour les filles depuis 2000).

Des prénoms en France

Étude des prénoms donnés en France

Marronnier du statisticien flemmard, la répartition des prénoms les plus fréquemment donnés selon le département est un grand classique. L’intérêt scientifique est plutôt limité car les effectifs sont faibles et il semble peu crédible que le choix des prénoms suive une tendance départementale (l'exception étant plutôt à trouver du coté des noms typiquement régionaux que l'on peut observer en Bretagne ou en Corse par exemple)

Malgré tout, ça reste amusant à faire et pas trop compliqué, il suffit de récupérer les données directement sur le site de l'INSEE qui compile pour chaque département et chaque année, le nombre de fois où un prénom à été donné (dans la limite d'au moins 3 observations dudit prénom - nous verrons par la suite que cela peut avoir un impact).

On notera aussi qu'il existe un petit biais concernant la Corse. En effet, les données remontant à 1900, à une époque où la Corse ne constituait qu'un seul département, cette nomenclature a été conservée afin de garder la même logique dans toutes les données même les plus récentes. Enfin, malgré l'apparente exhaustivité des données, il n'y a pas une correspondance parfaite avec le nombre total de naissances en France.

Le prénom le plus fréquemment donné dans chaque département.

L'analyse la plus classique consiste à réaliser une carte de France avec le nom le plus fréquemment donnés lors de l'année écoulée pour chaque département. On peut espérer y déceler des tendances (même si nous constaterons que ce sont surtout des classements liés au hasard)


Pour augmenter un peu les effectifs j'ai décidé (arbitrairement) de cumuler plusieurs années (de 2010 à 2017) afin d'essayer de dégager une "tendance".
 
Louise Attaque
Chez les filles, les Louise et Emma trustent les première places. Il faut cependant être prudent quant à ces premières places. Malgré les apparences, il n'y a en fait que 17 départements où cette première place est vraiment significative. Par exemple, dans le 63, il y a eu 440 Emma et 369 Louise. Cette différence est suffisamment importante pour considérer que ce classement est correct. En revanche, dans le 14 il y a eu 495 Lola et 492 Louise. C'est donc bien Lola qui est première dans ce département mais il est évident qu'il y a une part de hasard dans cette hiérarchie.


Lucas, Jules et Célio
Chez les garçons, les Lucas s'imposent devant les Jules. Cette fois-ci, il y a 8 départements où le premier prénom est significativement plus fréquent que le second (34, 57, 59, 75, 84, 92, 94, 95). On trouve par exemple 552 Adam et 435 Gabriel dans le 84. Cette différence est suffisamment importante pour conclure qu'elle n'est pas que le fait du hasard. En revanche, dans le 14 on trouve 554 Jules et 547 Lucas, cette différence est clairement trop faible pour y voir une vraie tendance.

Les prénoms plus exotiques.

Une  autre particularité amusante a analyser peut être de regarder les prénoms qui sont plus fréquents dans certains départements que dans d'autres. Il est possible de trouver des cas où un prénom apparait trois fois plus fréquemment dans un département que dans le reste de la France (et où ce prénom est donné au moins 5 fois toutes les 1000 naissances - afin de limiter les cas très extrêmes) et n'avons gardé que le premier de chaque département - il y en a parfois plusieurs qui dépasse ces seuils. Nous obtenons alors (sur les données 2010-2017) la carte des "particularismes régionaux" suivante :




Conclusion :

La prochaine fois que vous verrez ce type de carte, ayez toujours à l'esprit que le prénom le plus donné l'est peut-être de justesse, que ces calculs sont potentiellement fait sur de très faibles effectifs. Ces données sont plus "fiables" car cumulées sur 7 ans. Pour les analyses faites sur une seule année, seul un ou deux départements ont des résultats significatifs.