Evolution of unisex firstnames in the US

 

Data

https://www.ssa.gov/oact/babynames/limits.html

The data comes from "The United States Social Security Administration" (SSA ) that gather each year, the firstnames of all the babies born in the U.S. The data officialy starts in 1880 but numbers reported are highly under-estimated for this period. For example, in 1900 there has been 2.7 millions live births reported but our "firstname dataset" only contains results for 590 thousands births.

Starting from 1920, the dataset seems more compliant with the real number of births, so further analysis will start after 1920. It should also be noted that rare names (given less than 5 times a year) does not appears in the dataset - for confidentiality reason. That's why total in the dataset and total living births will never totally match.

Analysis

Multiple analysis can be made with this kind of data but we will focus on unisex names, ie names that can are commonly given to boys or girls in equivalent proportions.

Data transformation is simple, for each year and each firstname we will cout the number of time it has been given for boys and for girls. We can then compute the ratio boys/girls for this firstname this year. 

Most firstnames are given mostly to one gender but few are unisex and even fewer exhibits trend variation across time. Only firstnames with at least a total of 30K boys and 30K girls were kept.

 How to read the graph :

There is a value for each year indicating the total number of babies with this firstname this given year. The vertical position of this value depends on the ratio boys/girls with this name. The higher in the graph (and the more in the blue region) the biggest the boys-to-girls ratio. It could go way above 10 times more boys than girls. On the other hand, the further in the pink area, the bigger the ratio favors the girl-version of the first name.

Each ratio is also linked to a confidence inteval (the orange vertical box) that show where the true ratio should probably be (in a year with only few hundreds babie with this name, the ratio can be heavily influnced by sampling error).

The following example is for Jaime. From the 40's to 1975 there was between 100 and 1000 babies that where given that name each year with a ratio from 4 to 10 times more boys than girls. For example in 1974, there were 1092 boys named Jaime and 259 girls (hence a ratio of around 4)

But then, quickly in 1976, the number of Jaime exploded and the ratio completely changed; 9240 babies were named Jaime this year and 84% of them were girls, quite a turnaround !














Squid Game : Game 5 probability

 

Introduction

This is the year 2021 and the world only talks about one thing : the new Netflix tv Show called "Squid Game" (no, nobody talks about the coronavirus anymore, it's too 2020). 

Warning : limited spoilers ahead.

The show tells the story of a groups of people that have to go through a serie of tests where, each time, some of the contestants will be definitively eliminated from the game. In the episode 7, we will attend to the 5th test out of the 6 planned in the competition. This test relies partially on probability and luck.

The design

!! SPOILERS AHEAD !!

At this point of the game, there are only 16 contestants left. The test consists on 18 rows of two tiles each. The contestants will have to go one by one on each of these 18 rows. For each row, he will have to select between two tiles (left or right) but, one of the two tiles of each row is trapped (and the other one is safe) and if a contestant steps on the trapped tile, he will fail the test and be eliminated. (I tried to be vague in the description to avoid as much to spoil as I can).

To summarize, for each row, a contestant has one chance out of two to be eliminated and one chance out of two to go to the next row. Also, in this game, order really matters because even if the first contestant as to rely on his luck to guess correctly 18 times in a row the good answer in order to go through all the rows (he has one chance out of 2^18 to succeed). The following contestants knows what were the good and the bad tiles for each rows that the previous contestants already manage to go through.

For example, if the first contestant succeed at the first row, selecting the left tile and fail at the second row choosing the right tile, the second contestant already knows for sure the good answer for the first two rows : they are in both cases the left ones. Which means he just have to try is luck on the last 16 remaining rows which slighlty increases its chances. And the probability to have somebody able to go through the 18 tiles increases for each following contestant.

The question is to know, what are the probabilities for any number of contestant to succeed at the game. We already know that the probability to have 16 successful contestant out of 16 means that the first player should not be eliminated and then should guess correctly the 18 good tiles, meaning one chance out of 262 144.

But what are the probabilities to have 15, 14, 13 succesful players?

"Squid Game" has zero chance of clearing through the glass bridge

Simulations

The basic way to know the answer is to run computer simulations, test plenty of cases and have an estimation of the repartition of the outcome (ie the number of successful player).

R code to run such a simulation looks like this :

NPlayers = 16
NRows = 18
# Function to count the number of successful people going one by one
Success = function(Sampling) {
  vec = array(NAdim = ncol(Sampling))
  playerid = 1
  TileId = 1
  while (playerid <= nrow(Sampling) & TileId <= ncol(Sampling)) {
    if (Sampling[playeridTileId] == 0) {
      # Bad tile selected the next player has to play
      # The next player will have the right i-th tile 
      #(because the previous contestant failed so he knows the right answer)
      playerid = playerid + 1
    }
    vec[TileId] = playerid
    TileId = TileId + 1 # Next row
  }
  # Return the number of succesful people
  if (any(vec > nrow(Sampling))) return(0else return(nrow(Sampling) - vec[length(vec)] + 1)
}

Count = c()
for (iter in 1:1000000) {
# Basic random simulation of each participant walk
# don't take into account their previous steps
  Sampling = matrix(sample(c(01), size = NPlayers * NRowsreplace = T), ncol = NRows)
  Count[iter] <- Success(Sampling)
}
table(Count)


Which gives this kind of result :

Even if the bar does not appears on the graph, there are some cases where 13, 14, 15 and 16 people manages to go through but the values are so small they don't show up. From the simulation we can see that in this configuration ( 16 players and 18 rows ) more than 50% of the time 6 to 8 players will succeed. These are the most common occurences. 

Results based on 1 million simulations :

N SuccessN OccurencesObserved Probability
1 time out of ...
06511536
13 009332
211 65886
332 90130
470 535 14
5121 4818
6166 9216
7185 8165
8167 0266
9121 4088
1070 59514
1132 58530
1211 58386
133 154317
145971 675
157513 333
165
200 000

The theory says that there is one chance out of 262 144 to have 16 players that succeed, in our simulation it happened 5 times out of 1 million, hence once each 200 000 trials, which is close to the theoretical value.

Analytical results

After creating a rough estimation of each proportion we can try to be more accurate in the description. In our case we have N = 18 rows, each of them have 2 possibilities. This means there are 2^18 possible outcomes from people crossing all the rows. 

The case where no mistakes are made is unique and then appears once out of the 262 144 (2^18) cases. 

The case where 1 failure happened is not unique. The mistake can happened at row 1 or row 2 or row3, etc.. up to row 18. Which means there are 18 cases possible where only one error happened. Hence the probability of an outcome with one error represents 18 of the 262 144 cases.

For the cases with two errors, you have to list all the combinations of two positions among the 18 where the failure occurs. You have 18 possibility for the first error and 17 remaining possibilities for the second. Hence you have 18 x 17 = 306 possibilities. But be careful because you are counting twice the same results. For example the couple of error (10,2) and (2,10) are in fact the same. So you need to divide by two which leads to 153 unique combinations aomng the 262 144 cases.

For the case with three failures, method remains the same, you can count all the possibilities 18x17x16 = 4896 and divide by 6 (because each triplet of number have 6 different way to be sorted but are the same for us). Three failures happens 816 times out of 262 144.

The rest of the computation works the same way except for the 3 last cases. Because we are counting the number of players going through all the cases with 16 or more mistakes will leads to no player left. That is why we should groups them in the same value : "0 player remaining"

N SuccessProbabilityReal occurence
00.06%1524.09
10.31%321.25
21.17%85.67
33.27%30.6
47.08%14.12
512.14%8.23
616.69%5.99
718.55%5.39
816.69%5.99
912.14%8.23
107.08%14.12
113.27%30.6
121.17%85.67
130.31%321.25
140.06%1713.36
150.01%14563.56
160.0004%262144

Our simulated results were not too far from the reality.

Conclusion

SPOILER AGAIN

In the TV show, only 3 people manage to go through the 18 rows ( because, of course, nothing happened like it was supposed to) but in theory there should have been 6 to 8 people able to do it. The case where only 3 people manage to go through only happens 3% of the time and havig 3 person or less that manage to go through will only occurs with a probability below 5%.


 

Il est plus rentable de jouer au Loto qu'à l'Euromillions

 

Introduction 

Nous allons parler de la meilleure manière de gagner de l'argent, en comparant les gains réalisables à l'EuroMillions et au Loto. Si vous voulez un résumé de ce qui va suivre : Gardez votre argent c'est vraiment trop une escroquerie!! (Vous avec une chance sur 10 000 de gagner 100€ à l'EuroMillions, c'est pas honteux?!?!)

Le loto

Inutile de présenter le loto, il s'agit surtout d’expliquer que depuis octobre 2008, la grille du Loto se compose désormais de 5 nombres à choisir parmi 49 et d'un autre numéro (appelé numéro chance à choisir parmi une autre grille, plus petite, allant de 1 à 10). Si le numéro chance est le bon, alors la grille est remboursée. Donc une fois sur 10 le joueur repart au moins avec sa mise même si aucun numéro de sa grille principale n'est bon.

 L'EuroMillions

La grille d'EuroMillions se compose elle aussi d'un système de "double grille". Une première grille principale où il faut choisir 5 nombres parmi 50 et deux nombres (deux "étoiles") à choisir dans une seconde grille parmi 12 possibilités. Il est donc plus difficile d'obtenir le gros lot pour la grille d'EuroMillions puisque celle-ci a à chaque fois un peu plus de cases que celle du Loto et en plus il faut choisir deux nombres au lieu d'un, dans la grille secondaire.

Il est plus "rentable" de jouer au loto

Évidemment les cagnottes de l'EuroMillions sont plus importantes, cependant il faut aussi regarder quel jeu offre la plus grande probabilité de gagner des sommes plus raisonnables, disons 100 euros, ou 1000 euros, afin d'en évaluer l’intérêt.

Pour se faire il suffit de deux types d'informations : 

1- La probabilité qu'une grille appartienne à un certain rang (le "rang" est la catégorisation d'une grille en fonction du nombre de numéros corrects. Une grille ayant tous les bons numéros est une grille de rang 1). 

2 - Quel gain est associé à chaque grille de chaque rang. 

On peut alors déduire de ces deux informations la probabilité de gagner une certaine somme. Pour connaitre le gain associé à chaque grille il suffit de regarder les tirages déjà passés et l'argent gagné par les joueurs aux différents rangs.

Pour l'EuroMillions il n'est possible de remonter qu'à septembre 2016 puisque auparavant, la grille secondaire contenait 11 numéros et non 12. Les probabilités de gains étaient donc différentes. Pour le Loto, la grille secondaire n'est apparue qu'en 2008.

Pour avoir des résultats comparables, se sont donc tous les tirages depuis 2017 (et donc tous les gains) qui ont été comparés.De plus d'un tirage à l'autre, il existe une certaine variabilité dans les gains qui sont possibles. Ils dépendent de l'importance de la cagnotte mais aussi du nombre de vainqueurs aux différents rangs qui devront se partager la somme. Un intervalle de confiance (à 80%) est donc ajouté sur le graphique.

La comparaison

Interprétation

Le graphique (en échelle logarithmique) se lit ainsi, en regardant l'axe des abscisses et en regardant par exemple la valeur 10K (notation abrégée de 10 000). On constate que la courbe orange passe environ par la valeur 100 en ordonnées. Cela signifie qu'il y a environ une chance sur 10 000 d'avoir une grille qui permet de gagner de gagner 100 euros à l'EuroMillions. En regardant la courbe bleue, on se rend compte qu'il y a une chance sur 10 000 (donc environ la même probabilité) d'avoir une grille qui permet de gagner 500 euros. C'est quand même (un peu) mieux non ?

On notera parfois des décalages un peu étranges dans ces deux courbes. Ils s'expliquent par certaines bizarreries de ces loteries. Par exemple on voit que les rangs 6 et 7 de l'EuroMillions sont quasiment à la même probabilité mais que le gain du rang 6 est assez significativement supérieur à celui du rang 7. Le rang 6 de l'EuroMillions correspond a 3 numéros + 2 étoiles et a une chance sur 14125 d'arriver. Le rang 7 est "un peu" plus facile a obtenir, il s'agit d'avoir 4 bons numéros et 0 étoile. Il a une chance sur 13811 d'arriver. La différence de probabilité entre ces deux évènements est donc minime (à peine 3% d'écart) et pourtant la récompense n'est pas du tout la même, en moyenne le propriétaire d'une grille de rang 6 repartira avec 102€ alors qu'un possesseur d'une grille de rang 7 repartira avec 60€.

Rentabilité

Il semble évident que jouer aux différentes loteries n'est pas un placement "rentable" (cous allez perdre en moyenne plus d'argent que ce que vous allez en gagner. A peine un peu plus de 50% des mises sont retournées sous forme de gain auprès des joueurs. Pour le loto, vous dépenserez 2.20€ pour une grille qui vous rapportera en moyenne 1.17€.

Nous avons aussi vu qu'à l'EuroMillions il y a environ une chance sur 14 000 d'avoir une grille de rang 6 et que ça grille rapportera (en gros) 100€. Cela signifie que si vous jouez 14 000 grilles a 2.5€, en moyenne vous en aurez une qui vous rapportera 100€ (pour cet exemple on ne compte pas le fait que d'autres de ces grilles peuvent être gagnantes à des rangs inférieurs). Vous avez donc dépensé 35 000€ pour en gagner 100. Vous avez donc dépensé 350 fois plus que ce que vous avez gagné. C'est ce chiffre, "350" qui nous intéresse. Normalement on souhaiterai s'approcher d'une valeur de rentabilité de 1. C'est a dire que l'on récupère en moyenne ce que l'on à misé. C'est une chose qui est possible dans une certaine mesure pour les deux cas extrêmes.

Par exemple pour le Loto, il suffit d'avoir une bonne étoile pour être remboursé de sa mise. Donc en moyenne, si vous achetez 10 grilles il y en a une qui vous rapportera 2.20€. Vous aurez donc dépensé 22€ et reçu 2.2€. C'est donc une rentabilité de 10. Ce n'est pas incroyable mais c'est quand même toujours mieux que 350. 

Idem pour le cas inverse. Nous avons vu qu'il y a environ une chance sur 140 millions d'avoir la bonne combinaison à l'EuroMillions. Donc si vous achetez 140 millions de grilles à 2.5€ vous avez donc dépensé 350 millions (oui il faut avoir un peu les moyens). Vous allez donc forcement gagner le gros lot et si la cagnotte était par exemple de 100 millions (et que vous êtes le seul gagnant) alors vous aurez atteint une rentabilité d'environ 3.5 (je dis "environ" car vous allez gagner aussi un peu d'argent avec les autres grilles aux rangs inférieurs). Une fois de plus, ce n'est pas une rentabilité de 1, mais c'est toujours mieux que 350.

On peut alors comparer les "rentabilités" entre le Loto et l'EuroMillions.

Le graphique

Les choses à constater sont que le Loto est toujours plus rentable que l'EuroMillions mais surtout, et c'est une excellente technique marketing, les deux extrêmes sont les choses les plus rentables. Cela signifie que vous gagnerez "souvent" des petites sommes, vous montrant qu'il est possible de gagner à ce jeu et cela pourrait vous inciter à rejouer. De la même manière, le gros lot sera lui aussi "souvent" décroché, on en parlera peut-être dans les journaux et vous vous direz que cela pourrait aussi être vous. En revanche, des gens qui gagnent 500€ ça n'épate pas grand monde et finalement ces gens-là sont "proportionnellement" plus rares que les autres. Si les mises étaient équitablement réparties entre les rangs on devrait voir des barres horizontales sur le graphique ci-dessus, indiquant que le gain est proportionnel à la rareté de l'évènement. Ce n'est pas le cas ici, les cas très fréquents sont très biens payés mais les gains intermédiaires sont très peu "rentables".

Calcul des probabilités

Cette dernière partie revient sur la manière de calculer la probabilité d'obtenir un certain résultat. On va d'abord calculer la probabilité d'avoir tous les bons numéros (donc de trouver la grille exacte correspondant au tirage) mais il est plus interessant de voir comment il est possible de trouver la probabilité d'avoir un résultat incomplet (le résultat "parfait" n'en est finalement qu'une extension).


Le nombre de tirages possible de 5 numéros parmi 50 est :


cette formule explique qu'il y a 50 possibilités pour choisir le premier numéro, puis 49 possibilité pour le second (car il ne reste plus que 49 numéros parmi lesquels piocher après avoir tiré le premier numéro), 48 pour le troisième, 47 pour le 4ème et 46 pour le 5ème. Il y a donc 50x49x48x47x48 possibilités. Mais il faut aussi faire attention à ne pas compter des combinaisons en double. En effet, le tirage 1-2-3-4-5 et 5-4-3-2-1 constituent par exemple 2 grilles strictement identiques. L'ordre de tirage ne doit pas donc rentrer en compte. C'est pour ça que l'on divise par le nombre total de manière d'ordonner 5 un tirage de 5 numéros. Le premier des numéros peut être tiré parmi 5, le suivant parmi 4, etc... On divise donc par 5x4x3x2x1.

Au tiercé, l'ordre d'arrivée des chevaux à une importance, et le résultat 1-2-3-4-5 ne rapportera pas forcement la même somme que si le résultat est 5-4-3-2-1 alors qu'au Loto cela n'a pas d'importance. On peut donc compter le nombre d'arrangements possibles mais au loto (ou à l'EuroMillions) les nombres peuvent être permutés. Il faut donc diviser le nombre total d’arrangements par le nombre total de permutations afin d'obtenir le nombre total de combinaisons.

Poursuivons avec le nombre de tirages possibles de 2 numéros parmi 12 qui est :

Donc, le nombre de combinaisons de doubles-grilles est 66 fois 2118760 ce qui est égal a 139 838 160. Il y a donc environ une chance sur 140 millions d'avoir la bonne grille.

Exemple : Quelle est la probabilité, à l'EuroMillions, d'avoir 3 bons numéros sur 5 dans la grille principale et un bon numéro (une "étoile") sur 2 dans la grille secondaire. Tout d'abord il faut compter le nombre total de combinaisons.

Regardons maintenant le nombre de cas où 3 numéros sur 5 sont corrects dans la grille principale. Il s'agit donc de piocher 3 numéros parmi les 5 bons et 2 numéros parmi les 45 mauvais.

Puis dans la grille secondaire, on cherche les cas où un numéro (parmi les deux tirés) est bon et l'autre est n'est pas gagnant (et donc appartient au 10 numéros non-tirés de la seconde grille)

Il y a donc 9900 x 20 grilles différentes qui ont exactement 3 bons numéros sur la grille principale et 1 sur la grille secondaire. Ce qui fait donc 198 000 grilles parmi les 140 millions. Ce qui représente donc environ 1 chance sur 706.

Le tableau des probabilités est donc le suivant :

RangCombinaisonProbabilité1 chance sur
15 numéros + 2 étoiles0,000 000 72 %139 838 160
25 numéros + 1 étoile0,000 014 %6 991 908
35 numéros + 0 étoile0,000 032 %3 107 515
44 numéros + 2 étoiles0,000 16 %621 503
54 numéros + 1 étoile0,0032 %31 075
63 numéros + 2 étoiles0,0071 %14 125
74 numéros + 0 étoiles0,0072 %13 811
82 numéros + 2 étoiles0,10 %985
93 numéros + 1 étoile0,14 %706
103 numéros + 0 étoile0,32 %314
111 numéro + 2 étoiles0,53 %188
122 numéros + 1 étoile2,03 %49

Pour le Loto, dans un esprit similaire les probabilités sont les suivantes :

RangRésultats Probabilités 1 chance sur
1 5 numéros + numéro chance 0,000005 % 19 068 840
2 5 numéros sans numéro chance 0,000047 % 2 118 760
3 4 numéros + numéro chance 0,001154 % 86 677
44 numéros sans numéro chance 0,010383 % 9 631
53 numéros + numéro chance 0,049 % 2 016
63 numéros sans numéro chance 0,446 % 224
72 numéros + numéro chance 0,694 % 144
82 numéros sans numéro chance 6,250 % 16
9
0 ou 1 numéro + numéro chance9,254 %11