Stock à Stats: 2018

About bad words in movie

Introduction

Hide your kids, we are going to talk about bad words in this article and mainly the word "fuck" and all derived versions. No need to say it won't be of high level of language. In american cinema, the word "fuck" is almost considered as punctuation sign (in french, people from south of France sometimes use the word "putaing" the same way) ans some movies use this word to put the audience in the context of ordinary verbal violence. As I never invent anything, I used the wikipedia list of films that most frequently use the word "fuck"

The two first places are dominated by "Swearnet : the movie" and "Fuck : A documentary on the word". Both of them are unrivalled because their core concept is exactly to focus about the word "fuck". These two movies uses that word around 9 times by minutes (we will note that 9 FPM in the international unit system). It is roughly the same goal than the South Park episode "It hits the fan" where the word "shit" has been used around 200 times in a 25 minutes episode (hence, roughly a 8FPM if you follow correctly)

So, I prefer to focus the analysis on "regular" movies (i.e, movies that want to tell a story not related to the word "fuck" and that are widely known). The top three is then :

1- The wolf of de Wall Street, with Leonardo Di Caprio that contains 569 fucks at 3.16 FPM

2- Summer of Sam, from Spyke Lee, with 435 fucks at 3.06 FPM

3- Casino, from Martin Scorcese with Robert de Niro, with 422 fucks at 2.4 FPM

Data

As seen, counting the number of occurrences has already been done, but we coul extend the analysis a bit further to look for the distribution in the chronology of the film. The goal is to locate when each occurrences have been pronounced. To do such, I see two possible methods :
The first one (called pen-and-paper) is to watch the whole movie and to write on a sheet all the timings where the word have been told. It's a bit tedious and looks a little bit like a drinking game (but I advise you not to try to take a sip every f-word)
The second method (called "lazy method") consist in downloading the subtitles files of the film. These file contains all that we need, the pronounced word as well as the (approximative) time it has been pronounced. So, we just need to parse this file in the search of the pattern we are interested in.
Example of a subtile file :
124
00:06:06,089 --> 00:06:07,488
Hey, fuck him.

We should search for a pattern with the help of reguler expresisons and deduce the timing. In the previous example, the word has been pronounced between the 366th and 367th second of the movie. Depending on the position of the word in the sentence (in this case in the middle) one can deduce the moment it has been said. This is not a perfectly accurate method as sutitles tends to appears slightly before the beginning of the lines said in the movie but we do not really need to be accurate at the exact second anyway.>
I have also decided to include all the varations of the word, like "fucking" and "motherfucker" for example, as I think they also participate to the same principle. Finally, also in an arbitrary way, I have decided to present results by grouping them in the from of 10-minute time blocks.

Pictures

I was on my way to present histograms of the distribution of the F-word across the movie timeline but it was not particularly appealing (esthetically speaking). So I decided to add an extra information I've seen previously (which does not have a proper name), it is the "average color of every frame of a movie, compressed in one picture"
Basically, a film is a serie of pictures that appears 24 times per second. Each picture is made of pixels of different colors. Hence, for each of these pictures, we just have to make the average of the colors to summarize this picture and put this result along the other pictures to create a synthetic timeframe of the colors.
We can see the result obtained for five movies below :

We can easily see that each movie has a different color signature, like a unique barcode that could identify the movies. (If you are colorblind you cas skip this part).

This result is mainly esthetic but I was hoping that the color variations could match the use frequency of the word "fuck". In the case where a rising of the movie tension could be expressed by diffrent color patterns as well as a more intense use of the word "fuck".

The method to create such an output is rather easy. In my case, I have used the software called ffmpeg taht allows, with a single command line, to extract pictures from a video at regular intervals.

ffmpeg -i TheWolfOfWallStreet.avi -vf -fps=1 thumbs%05.jpg

In this example, the command take as an input the video file and create at 1 frame by second a jpg picture iteratively numbered. The second part of the job is then to read these pictures one by one with your favorite software (I used R with the jpeg package) and convert each color matrices into one unique color value and then create the final pattern.

Results

The wolf of Wall Street

A nice peak around 2/3 of the movie with 60 fucks in 10 minutes.

Summer of Sam

Not bad, especially at the end

Casino

Again, a nice ending with 80 fucks in 10 minutes.

Conclusion

The three movies analyzed have the same pattern, a peak near the end of the movie, where the action is more intense. We can also see a overall greyish color in all the movies. Casino is slightly more pinkish when The wolf of Wall Street is more grey-brown.It also could have been nice to make these graphs interactive, to be able to see the line and the picture of the scene when moving the mouse on the item.

The F word

Où il sera question de gros mots

(english version of the article)

Introduction

Cachez vos enfants, il va être question de gros mots dans cet article et principalement du mot "fuck" et de ses dérivés. Autant vous dire que ça ne va pas voler très haut.

Dans le cinéma américain, le mot "fuck" est presque parfois considéré comme de la ponctuation (l’équivalent du "putaing" de nos amis marseillais) et certains films usent et abusent de ce mot afin de placer le spectateur dans un contexte de vulgarité devenue quotidienne. N'ayant rien inventé, je me suis servi de la liste wikipedia des films où le mot fuck est le plus cité.

Les deux premières places sont largement dominées par "Swearnet : the movie" et "Fuck : a documentary on the word" qui sont un peu hors-concours puisque le concept même de ces deux long-métrages consiste justement à se concentrer sur le mot "fuck". Ces deux opus utilisant en moyenne 9 fois le mot "fuck" par minute (on dira 9 FPM dans le système d'unités internationales). On est donc un peu dans le même esprit que l'épisode de South Park "It hits the fan" où le mot "shit" fut utilisé plus de 200 fois dans un épisode de 25 minutes, soit environ 8 FPM (si vous avez suivi cette nouvelle unité)

Il est donc préférable de se concentrer sur des films "normaux" (i.e qui cherchent à raconter une histoire et qui sont relativement connus) et l'on trouve alors dans le top trois, les films suivants :

1- Le loup de Wall Street, avec Leonardo Di Caprio qui contient 569 fuck à 3.16 FPM

2- Summer of Sam, de Spyke Lee, avec 435 fuck à 3.06 FPM

3- Casino, de Martin Scorcese avec Robert de Niro, avec 422 à 2.4 FPM

Les données

Nous avons vu, le comptage dans ces films a déjà été réalise, mais nous pouvons aller un peu plus loin en regardant leur répartition dans la chronologie du film. Il s'agit donc de localiser à quels moments ont été prononcés chaque occurrence. Pour cela il existe deux méthodes : la première (dite méthode papier-crayon) consiste à regarder intégralement le film et à noter sur une feuille de papier (et avec un crayon) l'instant où chaque occurrence apparait. C'est fastidieux et ça ressemble un peu à un jeu à boire (mais je vous déconseille de boire une gorgée à chaque fois, vous finiriez probablement au pied de votre canapé)

La seconde méthode (dite méthode de la feignasse) consiste à récupérer les fichiers de sous-titres de chaque film. Ces fichiers contiennent toutes les informations sur les mots prononcés et sur le timing (approximatif). Il suffit donc de parser ces fichiers à la recherche des informations qui nous intéresse.

Exemple de formatage :

124
00:06:06,089 --> 00:06:07,488
Hey, fuck him.

On cherche donc les occurrences (dans la version anglaise du fichier évidemment) à l'aide d'expression régulières et on en déduit le timing. Dans l’exemple ci-dessus, la phrase apparait entre la 366ème et la 367ème seconde du film. En fonction de la position du mot fuck, dans la phrase, on peut en déduire une estimation de son timing. Ce n'est pas une méthode parfaite car les sous-titres apparaissent en général légèrement avant que la phrase ne soit prononcée, mais on n'est pas non plus à une seconde près.

De plus, j'ai aussi décidé d'inclure aussi dans le comptage les mots dérivés de "fuck", comme "fucking" ou "motherfucker" par exemple car il me semblait qu'ils s’intégraient eux aussi dans cet ensemble de vocabulaire.

Enfin, de manière arbitraire, j'ai aussi décidé de découper les résultats en tranches de 10 minutes.

Les images

J'étais donc parti pour faire un histogramme tout bête mais il n'était pas forcement visuellement très intéressant. J'ai décidé d'ajouter une information que j'avais déjà rencontré auparavant, qui ne porte pas vraiment de nom, il s'agit de la "couleur moyenne de chaque image d'un film, compressée en une seule image". Schématiquement, un film consiste en une suite d'images qui défilent au rythme de 24 par seconde. Chaque image est composée de pixels (de cases) qui ont chacune une couleur différente. Il s'agit alors, pour chaque image, de faire la moyenne des couleurs et de représenter cette image, ainsi que toute les autre dans une frise chronologique de nuances de couleurs.

Nous voyons le résultat pour cinq films différents ci-dessous : Wall-e, Aladdin et le monde de Némo ainsi que deux films de Wes Andersen, Moonrise Kingdom et Grand Budapest hôtel. On constate que chacun de ces film possède une signature visuelle très différente des autres, à la manière d'un code-barre qui identifierait de manière unique chaque film (si vous êtes daltonien, faites comme vous pouvez)

Le résultat est donc principalement à vocation esthétique mais, j'espérais néanmoins que les variations de teintes soient corrélées aux variations de fréquence d'utilisation du mot "fuck". Dans le cas où la tension du film serait représentée par des couleurs plus sombres et un vocabulaire plus vulgaire par exemple. Ainsi, les graphiques finaux représentent les deux éléments de manière superposée.
La méthode pour obtenir ce type de résultat est plutôt simple. Dans mon cas, j'ai utilisé le logiciel ffmpeg qui permet, grâce à une ligne de commande tout simples, d'extraire une image a intervalle régulier.

ffmpeg -i TheWolfOfWallStreet.avi -vf -fps=1 thumbs%05.jpg

Dans cet exemple, la commande prend en entrée un fichier vidéo et crée, au rythme de 1 image par seconde (1 fps), un fichier jpg numéroté de manière incrémentée. Il existe évidemment des tonnes d'options différentes permettant d'imaginer pleins de résultats différents.

La seconde partie du travail consiste alors à lire un par un ces fichiers avec votre logiciel préféré (j'utilise R et le package jpeg) et de convertir chaque matrice de couleur en une valeur unique de couleur. Et il reste juste à représenter toutes ces couleurs les unes à la suite des autres dans un graphique

Les résultats

Le loup de Wall Street

Un beau pic au deux tiers du film, avec 60 fuck en 10 minutes

Summer of Sam

Pas mal, surtout vers la fin

Casino

Là aussi, avec une fin en apothéose.

Conclusion

On constate principalement que les trois films qui nous intéressent ont des pics autour des derniers tiers du récit et qu'ils sont composés de couleurs plutôt grisâtres et sombres même si Casino est plus dans les tons roses alors que le loup de Wall Street est plutôt dans les tons gris et marron clair.

Il aurait pu être sympathique de rendre ces graphiques interactifs, de voir la réplique et l'image quand on passe la souris sur chaque moment où le mot "fuck" est prononcé. (A étudier)

Momo Motus

Présentation du jeu

Motus est un jeu télévisé, diffusé en France depuis 1990 et dont il existe des équivalents dans de nombreux pays (parfois sous d'autres noms) Le règlement de Motus est le suivant, il consiste à trouver un mot mystère, d'un nombre de lettre fixé (entre 7 et 10 lettres) et commençant par une lettre donnée à l'avance. Les candidats ont le droit à 6 propositions pour trouver le mot sachant qu'à chaque mot donné les candidats disposent de 3 indications sur les lettres du mot qu'ils ont donné :

- En rouge les lettres bien placées dans le mot

- En jaune, les lettres présentes dans le mot mais mal placées

- Sans indication, la lettre n'est pas présente dans le mot

Le principe rappelle donc celui du jeu de plateau Mastermind où il faut retrouver une combinaison de couleur en se basant sur le même type d'indication "bien placé"/"mal placé".

Du bon boulot

Afin de maximiser les chances de réussite, les stratégies les plus classiques consistent dans un premier temps à proposer un mot contenant toutes les voyelles (afin d'orienter la suite de la recherche vers des mots qui ne contiennent que les voyelles nécessaires) et dans un second temps de proposer des mots qui feront apparaitre le plus de consonnes différentes (toujours dans le but d'orienter la recherche) et pour finir il suffit de remettre les lettres dans l'ordre.

Évidemment il s'agit de la théorie, dans la pratique les candidats peuvent aussi s'adapter aussi en cours de route aux lettres déjà trouvées pour essayer de les placer au bon endroit.

Stratégie

Une approche pour se simplifier un peu la vie consiste alors à apprendre par cœur une liste de mots (des "starters") qui permettent de maximiser le nombre de consonnes découvertes dès les premières propositions. Pour ce faire il "suffit" de disposer d'un dictionnaire au format txt contenant tous les mots possibles. Il existe par exemple le dictionnaire officiel du scrabble qui peut servir de source. Il faut néanmoins le filtrer un peu puisque certains mots acceptés dans le scrabble ne le sont pas dans Motus (par exemple les verbes conjugués, ce qui enlève une quantité importante de déclinaisons de mots).

Une stratégie qui a déjà été proposée (ici) consiste à trouver des n-uplets de mots qui minimisent le nombre de mots possibles. C'est une approche très pertinente qui correspond à la stratégie que l'on utiliserait naturellement au Mastermind, mais qui ne convient pas exactement dans le cas de Motus puisqu'elle suppose que le candidat connait tous les mots du dictionnaire (ce qui n'est probablement pas le cas). Cette approche est excellente si l'on souhaite qu'un ordinateur résolve le problème (car on minimise le nombre de coups nécessaires pour trouver la solution) mais pour un humain (normal) il est plus intéressant de maximiser le nombre de consonnes présentes afin d'orienter sa réflexion. Il manque parfois une seule lettre dans le mot, mais celui-ci peut rester très difficile. (Un des pire exemple est ASSASSIN, si vous ne proposez pas le S, vous aurez beaucoup de mal à trouver le mot, alors que par déduction un ordinateur pourra le trouver très rapidement)

Pour en revenir à la création de notre liste de mots, il faut par exemple tester dans un premier temps tous les mots de 10 lettres qui commencent par un A et regarder ceux qui possèdent toutes les voyelles (A,E,I,O,U). On trouve par exemple "autocratie". (Le premier A ne compte pas car il sera toujours bien placé et ne nous indiquera pas si il y a un autre A dans le mot, il ne faut donc pas tenir compte de la première lettre qui n'aide pas à la résolution)

Dans un second temps on cherchera les combinaisons de deux mots qui maximisent le nombre de consonnes différentes. On peut raffiner un peu en éliminant les consonnes peu "utiles" comme le K, le W, le Z.... Pour ce faire, il est possible de donner un score en fonction du nombre de consonnes différentes et du score au scrabble par exemple (puisque les lettres rares valent 10 points, on peut s'en servir pour pénaliser ce score afin de privilégier les consonnes les plus fréquentes).

Enfin pour terminer, il faut trier un peu à la main parmi les couples de mots les plus efficaces afin de sélectionner des mots relativement usuels. En effet, les équipes de Motus préfèrent que les candidats s'en tiennent à des mots "usités" et pas des mots que personne ne connait. Il faut donc parfois sacrifier notre optimisation sur l'autel des mots compréhensibles. (Vous constaterez qu'il reste cependant des "quicageon" et "plombagine" dans la liste finale pour vous faire comprendre ce que j’entends par "usité")

Enfin, la dernière subtilité que vous pourrez constater dans les tableaux de synthèse (à 9 et 10 lettres) est que le premier mot à apprendre dans la liste des mots de 10 lettres soit au pluriel afin qu'en enlevant le "s" terminal cela devienne un mot de 9 lettres. Et hop, ça fait du boulot en moins.

Durant l’émission, comme chaque candidat parle en alternance, si vous parlez en premier, alors il faudra utiliser le mot contenant toutes les voyelles afin d'aider votre coéquipier. En revanche, si vous parlez en second il est préférable d'utiliser les deux autres mots (en supposant que votre coéquipier ai déjà proposé un mot contenant toutes les voyelles). En effet, toute cette stratégie présentée ci-dessus ne s'applique que dans le cas où vous ne pouvez pas vous entrainer avec votre partenaire (ou qu'il n'a pas envie d'apprendre des listes de mots)

Tableaux de mots

Pour les 10 lettres : Le premier mot contient toutes les voyelles (A,E,I,O,U) et les deux autres mots maximisent le nombre de consonnes différentes. La dernière colonne comptabilise le nombre de lettres différentes obtenues grâce au "MOT 1" et au "MOT 2" (il est a noter que la première lettre de chaque mot n'est pas comptabilisée car elle est toujours bonne et ne peut pas indiquer si cette lettre est une seconde fois présente dans le mot.

MOT VOYELLE	MOT 1	MOT 2	NB LETTRES
AUTOCRATIE	ARCHIVAGES	ABSOLUMENT	16
BALOURDISE	BIOGRAPHES	BOUCLEMENT	15
COURTISANE	CHALUTIERS	CAMBODGIEN	15
DINOSAURES	DOMPTABLES	DEFIGURANT	15
EQUATORIEN	EMBROCHEES	EPILOGUANT	16
FOURNAISES	FIGURANTES	FORMIDABLE	14
GOUVERNAIL	GUIMBARDES	GENOTYPAGE	15
HUMANOIDES	HAMBURGERS	HANDISPORT	14
INASSOUVIE	INDUCTIVES	IMPROBABLE	17
JOURNALIER	JAMBONNEAU	JAVASCRIPT	14
KABOULIENS	KILOMETRES	KIDNAPPEUR	13
LABORIEUSE	LEADERSHIP	LONGUEMENT	14
MOUTARDIER	MULTIMODES	MAIGRICHON	15
NUMERATION	NORVEGIENS	NOCTAMBULE	15
OVULATOIRE	OBJECTIONS	ORGASMIQUE	15
PATROUILLE	PRODUCTIFS	PLOMBAGINE	16
QUATERNION	QUEBECOISE	QUADRUPLET	13
RADIOLOGUE	RUBICONDES	REGRIMPANT	15
SPINOSAURE	SUBJECTIFS	SPHEROIDAL	16
TROUVAILLE	TOUCHABLES	TRADUCTION	15
UNIMODALES	ULCERATIFS	UNIMODALES	14
VADROUILLE	VIDEOCLUBS	VEGETARIEN	14
	WAKEBOARDS	WINCHESTER	13
	XANTHIQUES	XYLOGRAPHE	15
YAOURTIERE	YORKSHIRES	YOUGOSLAVE	12
ZODIACALES	ZENITHALES	ZURICHOISE	12

Pour les 9 lettres, on notera donc que le "MOT 2" est (dans la plupart des cas) le "MOT 1" déjà vu dans la liste à 10 lettres et que le "MOT 1" de cette liste, fini lui aussi en "s" afin de facilement avoir des mots de 8 lettres.

MOT VOYELLE	MOT 1	MOT 2	NB LETTRES
AUTOGAMIE	ABLUTIONS	ARCHIVAGE	15
BAUDROIES	BASCULANT	BIOGRAPHE	14
COUDRAIES	COMPAGNES	CHALUTIER	14
DINOSAURE	DEDUCTIFS	DOMPTABLE	14
EUPATOIRE	EVOLUTIFS	EMBRANCHE	16
FOURNAISE	FLAMENCOS	FIGURANTE	14
GAULOISES	GONFLAGES	GUIMBARDE	13
HUMANOIDE	HELIPORTS	HAMBURGER	13
INABOUTIE	IMPOSABLE	INDUCTIVE	15
JALOUSIES	JONGLEURS	JEREMIADE	12
KABOULIEN	KIDNAPPES	KILOMETRE	12
LABORIEUX	LONGTEMPS	LUCRATIVE	14
MODULAIRE	MANGROVES	MULTIMODE	14
NOUGATINE	NUPTIALES	NORVEGIEN	13
OPERATION	OVULAIRES	OBJECTION	14
POULINAGE	PLOMBAGES	PRODUCTIF	15
QUICAGEON	QUARTILES	QUOTIDIEN	13
ROUMAINES	RUBICONDS	REPRIMANT	14
SAOUDIENS	SAMPLINGS	SUBJECTIF	15
TOUAILLES	TREMPLINS	TOUCHABLE	14
	UPPERCUTS	UNIMODALE	13
VAUDOISES	VACHERINS	VIDEOCLUB	13
WEBRADIOS	WINDSURFS	WAKEBOARD	12
	XANTHIQUE	XYLOCAMPE	14
	YACHTMANS	YORKSHIRE	12
ZODIAQUES	ZURICHOIS	ZENITHALE	12

Conclusion :

Cette méthode n'est pas optimale (car on omet des combinaisons de mots parfois plus judicieuse) mais elle à l'avantage de limiter le nombre total de mots à retenir ce qui est un avantage quand on doit apprendre la liste seul. Elle fonctionne relativement bien (je le confirme) et permet de s'appuyer sur des mots afin de ne pas être pris au dépourvu (le candidat n'ayant que 8 secondes pour réfléchir).

Motus étant un jeu d'équipe, il est préférable de mettre en place une stratégie plus intéressante qui consisterait à être deux à apprendre une liste de mots, sans le mot contenant toutes les voyelles (qui seront découvertes de toute façon avec les 2-3 premiers mots) et de surtout privilégier les consonnes, en apprenant des triplets de mots plutôt que des duos de mots qui les maximisent par exemple. A tester.

Nom d'une dinde

L'origine du mot "dinde" selon les pays

L'animal fétiche des fêtes de fin d'années a une étymologie assez amusante (et différente) dans chaque pays. La première fois que l'on se rend compte de ces différences c'est évidemment quand on compare à sa traduction anglaise "turkey". En français, on à affaire à l'Inde et dans l'autre cas à la Turquie. En approfondissant le sujet on se rend surtout compte que c'est un gros bazar mondial. Dans la plupart des langues, cet animal porte le nom de son pays supposé de provenance. Souvent à tort, puisque l'on parle ici du genre Melagris gallopavo (traduit par gallo = "coq et pavo ="paon") originaire d'Amérique et plus précisément du Mexique. Animal dont l'exportation à commencé aux environs de 1550-1600 suite à la découverte de l'Amérique par Christophe Colomb (qui croyait être arrivé en Inde mais nous y reviendrons plus tard).

Le but est donc de lister, pour chaque langue (et chaque pays) quelle étymologie y est associée. Nous verrons qu'elle consiste principalement en trois noms de pays (Turquie, Inde et Pérou) et quelques autres particularités détaillées ci-dessous.

Les différentes catégories d'origines

La Turquie : Les anglophones disent "Turkey". Autour de 1540, les pintades de Numidie (en anglais guinea fowl : poulet de Guinée) étaient importées depuis Madagascar et transitaient par la Turquie. Leur apparence pouvant être confondues avec les dindes issues d'Amérique, l'ensemble de ces deux volailles aux origines différentes se sont appelées de la même manière. A noter qu'en Grèce, il semble qu'il existe le mot Tourkia (Τουρκία) mais aussi le nom gallopoula (poule de gauloise).

L'inde : La version française dinde, provient (vers 1600) de la forme abrégée poule d'Inde pour définir cet animal qui était originaire du Mexique situé à l’époque dans ce qui était appelé les Indes occidentales (pour ne pas les confondre avec les indes de l'est). Cette nomenclature étant héritée de la confusion de Christophe Colomb qui se pensait débarqué aux Indes lorsqu'il arriva en Amérique. Ce sont donc principalement les pays francophones qui reprennent cette appellation ainsi que quelques autres pays du bassin méditerranéen. Les turcs par exemple, ne vont évidemment pas appeler ces volailles "Turkey" parce qu'ils savaient évidemment que cela ne venait pas de chez eux, ils les nomment donc "hindi".

Il existe aussi d'autres versions indiquant que certaines dindes des Indes (américaines) étaient aussi importées via les Indes (de l'est) ce qui pourrait ajouter encore plus de confusion.

Le Pérou : On se rapproche du bon endroit. Les portugais (et les indiens - d'Inde) pensaient que l'animal venait du Pérou. C'est déjà mieux.

Le poulet/coq romain : Cette appellation (principalement arabe "dajája romia") est traduite littéralement par romain mais elle désigne aussi l'Europe en général, c'est plutôt dans ce sens qu'elle doit être interprété, c'est à dire poulet (ou coq) d'Europe. Au Liban, la dinde est aussi appelée "dik habash" ce qui signifie coq d’Abyssinie (ancien nom de l'empire Éthiopien)

Calicut : Du coté scandinave on préfère la forme Kalkoen/Kalkun qui fait ici référence à la ville indienne de Calicut, nommée aussi Kozhikode (mais à ne pas confondre avec Calcutta) d'où serait originaire cet animal.

La Hollande : En malais (parlé en Malaisie, à Singapour et Brunei) il s'agirait d'une poule de Hollande.

Le paon : En espagnol, le paon se dit pavo et c'est se mot qui sert aussi à désigner la dinde. Il est a noter que le nom latin de la dinde est Meleagris gallopavo. On retrouve donc ce suffixe et donc une explication de cette déformation. Au moins il n'y a pas de soucis quant à la provenance de l'animal avec cette version.

Les cris : Un peu moins certain, mais en Allemagne, truthahn aurait pour origine le cri émit par l'animal (littéralement "le coq qui fait trut"). En italien, dinde se dit "tacchino" et se rapporterait aussi au bruit de la bête (j'ai aussi trouvé une version indiquant que cela pouvait aussi provenir du mot "tache" mais la plupart des origines évoquent plutôt le cri de l'animal). Au Maroc, bien qu'utilisant aussi la version arabe, la dinde est aussi nommée bibi (qui serait là aussi une onomatopée) on dit bibi pour le dindon et bibi-ya pour la dinde.

Apparemment en gaulois on dit "glouglou"

Les poulets divers : Principalement en Asie, les dindes ne sont pas définies en fonction de la provenance mais plutôt de leur apparence. Ainsi, en Chine, la dinde se nomme "oiseau de feu", au Japon on le nomme "oiseau aux sept visages", en Birmanie et en Thaïlande il se nomme poulet éléphant.

On notera que les mexicains (qui parlent espagnols) disent principalement pavo mais il existe la forme issue de l'Aztec Heuhxolotl et sa version (hispanisée) guajolote.

La carte :

Cette carte a été réalisée de la manière suivante : chaque pays possède une (ou plusieurs) langues officielles, pour chacune de ces langues j'ai cherché la traduction et son origine et l'ai représenté dans une couleur associée a une des catégorie précédemment citée.
Ainsi, les pays ayant plusieurs langues officielles (le Canada, la Belgique par exemple) sont découpés (de manière relativement arbitraire) en zones de 2 ou 3 couleurs (selon le nombre de langues officielles). Pour le Luxembourg, qui possède 3 langues officielles (le français : dinde, l'allemand truthahn et le luxembourgeois Tierkei) je me suis permis de ne mettre qu'une couleur sur la cinquantaine de pixels que cela représentait - veuillez m'excuser de ce raccourci.

Ainsi, les différents dialectes propres à chaque pays peuvent ne pas apparaître ou ne pas exactement refléter l'expression réellement utilisée. Par exemple, au Mexique on parle espagnol, le Mexique est donc coloré de la même façon que l'Espagne. Cependant on dit pavo de manière usuelle mais aussi guajolote (même si pavo semble être la forme la plus utilisée). Il en est de même pour l'Arabe, où plusieurs versions du mot existent selon les pays et les dialectes mais la couleur sera toujours la même.

Cliquez pour agrandir

La carte ci-dessus présente donc une vision globale (et parfois incomplète dans certaines zones concernant des spécificité locales). Une version (plus précise) de cette étude à été réalisée à l’échelle européenne par des membres de l'université d'Amsterdam en détaillant (en anglais) de manière plus fine les nuances dans les différents dialectes européens (le détail va jusqu'à faire la différence entre le gallois, l’écossais, l'irlandais...) là où je me suis contenté de ne donner qu'une couleur au Royaume-Uni. En revanche, la forme "piot" qui serait présente dans le sud de la France m'est inconnue.
A noter qu'il existe certaines différences entre mes résultats et ceux du graphique ci-dessous (mais ne connaissant pas leurs sources je ne peux donc pas comparer les résultats)

Pour conclure, le tableau suivant (réalisé par mes soins) montre la liste des pays, les langues officielles et la traduction du mot dinde dans les différentes langues ainsi que l'origine du mot. Pour ce faire, j'ai utilisé différents traducteurs en ligne, consulté des sites et blogs parlant de ce sujet (oui, il y a d'autres personnes qui se demandent d'où vient le mot dinde/turkey dans chaque langue, je ne suis pas le seul, nous sommes légion).

Pour certains pays l'origine est disputée (comme pour le letton "titars"), pour d'autres pays je n'ai tout simplement pas trouvé l’étymologie des traductions (le Laos : ໄກ່ງວງ, la Corée : 칠면조, la Mongolie цацагт хяруул ou le malgache vorontsiloza par exemple). Et pour certaines langues je n'ai même pas trouvé de traduction du tout (si quelqu'un connait un bon dictionnaire français-tuvaluan je suis preneur)
Si vous avez des améltiorations à apporter ou si vous constatez des erreurs, n'hésitez pas à le signaler, je corrigerais avec plaisir.

Pays	Langues officielles	Traduction	Origine
Afghanistan	pachtoune, dari, ouzbek	kurka	Turquie
Afrique du Sud	afrikaans, anglais	Turkye/turkey	Turquie
Albanie	albanais	Turqi	Turquie
Algérie	arabe	تركيا	Romain
Allemagne	allemand	Truthuhn	Cri
Andorre	catalan	gall dindi	Inde
Angola	portugais	Peru	Perou
Arabie saoudite	arabe	تركيا	Romain
Argentine	espagnol	pavo	Paon
Arménie	arménien	հնդկահավ	Inde
Aruba	hollandais, papiamento	Kalkoen	Calicut
Australie	anglais	turkey	Turquie
Autriche	allemand	Truthuhn	Cri
Azerbaïdjan	azerbaïdjanais	hinduska	Inde
Bahamas	anglais	turkey	Turquie
Bahreïn	arabe	تركيا	Romain
Bangladesh	bengali	তুরস্ক	Turquie
Barbade	anglais	turkey	Turquie
Biélorussie	biélorusse, russe	індычка	Inde
Birmanie	birman	ကြက်ဆင်	Poulet
Belgique	français, flamand, allemand	dinde/Kalkoen/Truthahn	Inde/Calicut/Cri
Belize	anglais	turkey	Turquie
Bénin	français	dinde	Inde
Bermudes	anglais	turkey	Turquie
Bhoutan	tibétain dzongkha
Bolivie	espagnol	pavo	Paon
Bosnie-Herzégovine	serbe	Турска	Turquie
Botswana	anglais	turkey	Turquie
Brésil	portugais	Peru	Perou
Brunéi	malais	ayam belanda	Hollande
Bulgarie	bulgare	Турция	Turquie
Burkina Faso	français	dinde	Inde
Burundi	kirundi, français	dinde	Inde
Cambodge	khmer	តួកគី	Turquie
Cameroun	anglais, français	turkey/dinde	Turquie/Inde
Canada	anglais, français	turkey/dinde	Turquie/Inde
Cap-Vert	portugais	Peru	Perou
République centrafricaine	français, sango	dinde	Inde
Chili	espagnol	pavo	Paon
République populaire de Chine	mandarin	火雞	Poulet
Chypre	turc, grec,anglais	dinde/Τουρκία/turkey	Inde/Turquie/Turquie
Colombie	espagnol	pavo	Paon
Comores	français	dinde	Inde
République du Congo	français	dinde	Inde
Rép dém du Congo	français	dinde	Inde
Corée du Nord	coréen	칠면조
Corée du Sud	coréen	칠면조
Costa Rica	espagnol	pavo	Paon
Côte d’Ivoire	français	dinde	Inde
Croatie	croate	puretina/puran	Perou
Cuba	espagnol	pavo	Paon
Danemark	danois	kalkun	Calicut
Djibouti	arabe, français	dinde/	Inde/Romain
Dominique	anglais	turkey	Turquie
Égypte	arabe	تركيا	Romain
Émirats arabes unis	arabe	تركيا	Romain
Équateur	espagnol	pavo	Paon
Érythrée	tigrina, arabe	تركيا	Romain
Espagne	espagnol	pavo	Paon
Estonie	estonien	Türgi	Turquie
États-Unis	anglais	turkey	Turquie
Éthiopie	amharique	የቱርክ ዶሮ	Turquie
Fidji	fidjien, anglais	turkey	Turquie
Finlande	finnois	kalkkuna	Calicut
France	french	dinde	Inde
Gabon	french	dinde	Inde
Gambie	anglais	turkey	Turquie
Géorgie	géorgien	თურქეთში	Turquie
Ghana	anglais	turkey	Turquie
Gibraltar	anglais	turkey	Turquie
Grèce	grec	Τουρκία	Turquie
Grenade	anglais	turkey	Turquie
Guatemala	espagnol	pavo	Paon
Guinée	french	dinde	Inde
Guinée-Bissau	portugais	Peru	Perou
Guinée équatoriale	espagnol	pavo	Paon
Guyana	anglais	turkey	Turquie
Haïti	créole, french	dinde	Inde
Honduras	espagnol	pavo	Paon
Hongrie	hongrois	pulyka	Poulet
Inde	hindi, anglais	टर्की	Perou/Turquie
Indonésie	indonésien	kalkun	Calicut
Iran	persan	بوقلمون	Poulet
Irak	arabe, kurde	تركيا	Romain
Irlande	irlandais, anglais	turkey	Turquie
Islande	islandais	kalkúnn	Calicut
Israël	hébreu	טורקיה	Turquie
Italie	italien	tacchino	Cri
Jamaïque	anglais	turkey	Turquie
Japon	japonais	七面鳥	Poulet
Jordanie	arabe	تركيا	Romain
Kazakhstan	kazakh, russe	күрке тауық/индейка	Turquie/ Inde
Kenya	swahili, anglais	Uturuki/turkey	Turquie
Kirghizistan	kirghiz, russe	индюк/индейка	Inde
Kiribati	anglais, gilbertien	turkey	Turquie
Koweït	arabe	تركيا	Romain
Kosovo	albanais, serbe	Turqi/Турска	Turquie
Laos	lao	ໄກ່ງວງ	NA
Lesotho	sotho, anglais	turkey	Turquie
Lettonie	letton	tītars
Liban	arabe	تركيا	Romain
Liberia	anglais	turkey	Turquie
Libye	arabe	تركيا	Romain
Liechtenstein	allemand	Truthuhn	Cri
Lituanie	lituanien	Turkija	Turquie
Luxembourg	allemand, français, luxembourgeois	Truthuhn/dinde/Tierkei	Cri/Inde/Turquie
Macédoine	macédonien	Турција	Turquie
Madagascar	malgache, french	vorontsiloza/dinde	/Inde
Malaisie	malais	ayam belanda	Hollande
Malawi	anglais, chichewa	turkey/Turkey	Turquie
Maldives	divehi
Mali	français	dinde	Turquie
Malte	maltais, anglais	dundjan/turkey	Inde/Turquie
Maroc	arabe	تركيا	Romain
Maurice	anglais, français	turkey/dinde	Inde/Turquie
Mauritanie	arabe	تركيا	Romain
Mexique	espagnol	pavo	Paon
Moldavie	moldave, roumain	turcia	Turquie
Monaco	français	dinde	Inde
Mongolie	mongole	цацагт хяруул
Monténégro	monténégrin	Curan
Mozambique	portugais	Peru	Perou
Namibie	anglais	turkey	Turquie
Népal	népalais	टर्की	Turquie
Nicaragua	espagnol	pavo	Paon
Niger	français	dinde	Inde
Nigeria	anglais	turkey	Turquie
Norvège	norvégien	kalkun	Calicut
Nouvelle-Zélande	anglais	turkey	Turquie
Oman	arabe	تركيا	Romain
Ouganda	anglais	turkey	Turquie
Ouzbékistan	Ouzbek	kurka	Turquie
Pakistan	ourdou, anglais	turkey	Turquie
Panama	espagnol	pavo	Paon
Papouasie-Nouvelle-Guinée	anglais	turkey	Turquie
Paraguay	espagnol, guarani	pavo	Paon
Pays-Bas	néerlandais	Kalkoen	Calicut
Pérou	espagnol, quechua	Pavo/Guajolote/huehxolotl	Paon
Philippines	philippin, anglais	pabo/turkey	Paon/Turquie
Pologne	polonais	Turcja	Turquie
Porto Rico	espagnol, anglais	pavo/turkey	Paon/Turquie
Portugal	portugais	Peru	Perou
Qatar	arabe	تركيا	Romain
République dominicaine	espagnol	pavo	Paon
République tchèque	tchèque	krocan	Inde
Roumanie	roumain	Turcia	Turquie
Royaume-Uni	anglais	turkey	Turquie
Russie	russe	индейка	Inde
Rwanda	kinyarwanda,français,anglais	dinde/turkey	Inde/Turquie
St-Vincent-et-les-Grenadines	anglais	turkey	Turquie
Salvador	espagnol	pavo	Paon
Sénégal	français, wolof, peul, sérère	dinde/koppin	Inde
Serbie	serbe	Турска	Turquie
Sierra Leone	anglais	turkey	Turquie
Singapour	anglais,mandarin,malais,tamoul	turkey/ayam belanda/வான்கோழி	Turquie/Hollande
Slovaquie	slovaque	moriak
Slovénie	slovène	puran
Somalie	somalien, arabe	تركيا	Romain
Soudan	arabe	تركيا	Romain
Soudan du sud	anglais	turkeyا	Turquie
Sri Lanka	cingalais, tamoul	තුර්කිය	Turquie
Suède	suédois	kalkon	Calicut
Suisse	allemand, français, italien	Truthuhn/dinde/tacchino	Cri/Inde/Cri
Suriname	néerlandais	Kalkoen	Calicut
Swaziland	anglais, swati	turkey	Turquie
Syrie	arabe	تركيا	Romain
Tadjikistan	tadjik	мокиёни мурци марьон
Taïwan	mandarin, taïwanais		Poulet
Tanzanie	swahili, anglais	Uturuki/turkey	Turquie
Tchad	français, arabe	dinde/تركيا	Inde/Romain
Thaïlande	thaï	ไก่งวง	Poulet
Timor-Oriental	tétum, portugais	Peru	Perou
Togo	français	dinde	Inde
Tunisie	arabe	تركيا	Romain
Turkménistan	turkmène, russe	индейка	Inde
Turquie	turc	hindi	Inde
Tuvalu	tuvaluan, anglais	turkey	Turquie
Ukraine	ukrainien	індичка	Inde
Uruguay	espagnol	pavo	Paon
Vatican	italien	tacchino	Cri
Venezuela	espagnol	pavo	Paon
Vietnam	vietnamien	gà tây	Poulet
Yémen	arabe	تركيا	Romain
Zambie	anglais	turkey	Turquie
Zimbabwe	anglais, shona	turkey	Turquie

About bad words in movie

About bad words in movie

Introduction

Data

Pictures

Results

The wolf of Wall Street

Summer of Sam

Casino

Conclusion

The F word

Où il sera question de gros mots

Introduction

Les données

Les images

Les résultats

Le loup de Wall Street

Summer of Sam

Casino

Conclusion

Momo Motus

Présentation du jeu

Stratégie

Tableaux de mots

Conclusion :

Nom d'une dinde

L'origine du mot "dinde" selon les pays

Les différentes catégories d'origines

La carte :

Evolution of unisex firstnames in the US