Probabilité et prénoms




Distribution des prénoms en fonction des années, en France de 1900 a 2017.

Quels sont les 10 prénoms les plus donnés chaque année et quel pourcentage d'enfants ont ces prénoms?

Pour se faire, il suffit pour chaque année (et chaque sexe) de lister les noms les plus fréquemment donnés et de le diviser par le nombre total d'enfants nés cette année-là. Dans les graphiques suivants, ces pourcentages sont cumulés. Ainsi, pour les filles, en 1900 on constate que le prénom le plus donné était Marie (écrit en bas du graphique) et qu'il représentait 20% des filles nées cette année-là! Le deuxième prénom le plus donné en 1900 (non-présenté dans le graphique) a été attribué a environ 5% des filles nées cette année-là. Ainsi, les deux prénoms les plus fréquemment donnés représentent 25% de filles nées en 1900 et le top 10 des prénoms féminins était porté par 45% des filles en 1900.
On constate aussi un pic en 1970 (avec les Nathalie en tête de liste) qui correspondait à environ 15% des prénoms donnés durant cette période. On constate dans les deux graphiques (filles et garçons) une tendance globale à la baisse puisque désormais, le top 10 des prénoms donnés aux bébés n'est porté que par 15% d'entre eux. Pour les garçons, le dernier pic a eu lieu dans les année 1940 avec un nombre important de Jean.
Avec ces données on peut aussi s'amuser à essayer de répondre à une question "fondamentalement" inutile :

Quelle est la probabilité que deux bébés (du même sexe) nés la même année et pris au hasard, portent le même prénom?

La question est plutôt simple et cette probabilité dépend fortement du fait qu'a une époque donnée, la quantité de prénom donnés aux bébés soit plus ou moins grande. Le calcul est le suivant :
Pj=i=1n(NijNij1Nj)NjP_j=\frac{\sum_{i=1}^n{ (N_{ij} \frac{N_{ij}-1}{N_j}) }}{N_j}
La probabilité Pj que deux personnes portent le même prénom pour l'année j est la somme des probabilités pour les n prénoms données cette année où Nij est le nombre de fois où le prénom i a été donné lors de l'année j. Et on pose Nj le nombre total d'enfant nés l'année j.

On obtient alors les graphiques suivant :
 
Pour les filles il y avait 5% de chances d'en trouver deux qui aient le même prénom en 1900 (et environ 0.1% actuellement)




Pour les garçons il y avait jusqu'à 4% de chances d'en trouver deux qui aient le même prénom dans les années 1940 (et environ 0.1% actuellement)


Les valeurs sont plutôt faibles et donc pas forcement très parlantes. Une autre méthode consiste à se demander quelle est la probabilité qu'au moins deux élèves aient le même prénom dans une classe de 30 élèves. Les amateurs reconnaitront une similitude avec l'énoncé du paradoxe des anniversaires. Cette question est habituellement posée sous la forme : Quelle est la probabilité qu'au moins deux personnes d'un groupe de N personnes aient un anniversaire en commun.Le paradoxe réside dans le fait que cet événement semble plutôt improbable alors que les calculs montrent qu'en réalité, dans un groupe de 30 personnes il y a 70% de chance qu'au moins deux d'entre eux aient la même date d'anniversaire. (Pour un groupe de 47 personne cette probabilité passe à 95%)

La différence avec le paradoxe des anniversaires c'est que dans le cas des prénoms, la probabilité d'apparitions chacun des prénoms n'est clairement pas la identique (alors que pour le paradoxe des anniversaires on considère que la probabilité d'être n'est un jour précis est de 1/365 quelque soit le jour -ce qui n'est pas forcément vrai du fait de variations saisonnières dans les naissances). Néanmoins en supposant que la répartition des naissances au cours de l'année n'est pas équiprobable, on peut montrer que le paradoxe en est renforcé (c'est a dire que les probabilités s'amléiorent)

Bref, le résultat sans plus attendre :



On se rend compte que dans quasiment toutes les classes de 30 élèves avant 1940 avaient des élèves ayant un prénom en commun. Actuellement, la probabilité se situe plutôt autour de 50% et tend à descendre encore plus.

La notion de prénoms efficaces

Le nombre de prénoms utilisés semble augmenter. Cependant si la plupart de ces prénoms ne sont utilisés que très rarement alors leur impact est limité. Sur les 6000 prénoms pour garçons utilisés en 2017, si 99% ne sont attribués qu'a un seul enfant, alors au final la majorité des garçons porterait un des prénom du top 10 et la variabilité ne serait pas forcément plus grande que dans les années 1940 où le top 10 des prénoms était porté par la moitié des petits garçons de l'époque. 
Pour comparer l'utilisation des prénoms on peut calculer, pour chaque année la valeur du nombre de "prénom efficace". Cette notion est héritée de la génétique (Ae : nombre d'allèles efficaces") et représente le nombre de prénoms nécessaire pour décrire la variabilité en supposant que leur fréquence est identique. Cette valeur du nombre de prénom efficace correspond exactement à l'inverse de la probabilité que deux personnes prises au hasard aient le même prénom. Ainsi, un nombre de "prénom efficace" de 70 signifie que deux enfants du même sexe (et né la même année) pris au hasard ont une chance sur 70 d'avoir le même prénom. Il s'agit donc exactement du même calcul que pour le paragraphe précédent.
Pour les filles on est passé de 18 prénoms efficaces à plus de 400. On a donc multiplié par 20 la variabilité des prénoms féminins et de manière inverse, on a divisé par 20 la probabilité que deux bébés aient le même prénom.
Pour les garçons on est passé de 40 prénoms efficaces (avec un minimum en 1943 a 25) à plus de 340. On a donc multiplié par 8 la variabilité des prénoms masculins. On constate donc qu'il y a plus de variabilité (plus d'originalité) actuellement dans le choix des prénoms féminin que masculins. Dans les deux cas on constate aussi et surtout une explosion de ces valeurs, qui ont a chaque fois plus que doublé depuis le début des années 2000 (elle a presque même triplé pour les filles depuis 2000).

Aucun commentaire:

Enregistrer un commentaire