About bad words in movie


About bad words in movie 

(Version française de l'article)

Introduction

Hide your kids, we are going to talk about bad words in this article and mainly the word "fuck" and all derived versions. No need to say it won't be of high level of language. In american cinema, the word "fuck" is almost considered as punctuation sign (in french, people from south of France sometimes use the word "putaing" the same way) ans some movies use this word to put the audience in the context of ordinary verbal violence. As I never invent anything, I used the wikipedia list of films that most frequently use the word "fuck"
The two first places are dominated by "Swearnet : the movie" and "Fuck : A documentary on the word". Both of them are unrivalled because their core concept is exactly to focus about the word "fuck". These two movies uses that word around 9 times by minutes (we will note that 9 FPM in the international unit system). It is roughly the same goal than the South Park episode "It hits the fan" where the word "shit" has been used around 200 times in a 25 minutes episode (hence, roughly a 8FPM if you follow correctly)
So, I prefer to focus the analysis on "regular" movies (i.e, movies that want to tell a story not related to the word "fuck" and that are widely known). The top three is then :


1- The wolf of de Wall Street, with Leonardo Di Caprio that contains 569 fucks at 3.16 FPM
2- Summer of Sam, from Spyke Lee, with 435 fucks at 3.06 FPM
3- Casino, from Martin Scorcese with Robert de Niro, with 422 fucks at 2.4 FPM

Data

As seen, counting the number of occurrences has already been done, but we coul extend the analysis a bit further to look for the distribution in the chronology of the film. The goal is to locate when each occurrences have been pronounced. To do such, I see two possible methods :
The first one (called pen-and-paper) is to watch the whole movie and to write on a sheet all the timings where the word have been told. It's a bit tedious and looks a little bit like a drinking game (but I advise you not to try to take a sip every f-word)
The second method (called "lazy method") consist in downloading the subtitles files of the film. These file contains all that we need, the pronounced word as well as the (approximative) time it has been pronounced. So, we just need to parse this file in the search of the pattern we are interested in.
Example of a subtile file :
124
00:06:06,089 --> 00:06:07,488
Hey, fuck him.


We should search for a pattern with the help of reguler expresisons and deduce the timing. In the previous example, the word has been pronounced between the 366th and 367th second of the movie. Depending on the position of the word in the sentence (in this case in the middle) one can deduce the moment it has been said. This is not a perfectly accurate method as sutitles tends to appears slightly before the beginning of the lines said in the movie but we do not really need to be accurate at the exact second anyway.>
I have also decided to include all the varations of the word, like "fucking" and "motherfucker" for example, as I think they also participate to the same principle. Finally, also in an arbitrary way, I have decided to present results by grouping them in the from of 10-minute time blocks.


Pictures

I was on my way to present histograms of the distribution of the F-word across the movie timeline but it was not particularly appealing (esthetically speaking). So I decided to add an extra information I've seen previously (which does not have a proper name), it is the "average color of every frame of a movie, compressed in one picture"
Basically, a film is a serie of pictures that appears 24 times per second. Each picture is made of pixels of different colors. Hence, for each of these pictures, we just have to make the average of the colors to summarize this picture and put this result along the other pictures to create a synthetic timeframe of the colors.
We can see the result obtained for five movies below :




We can easily see that each movie has a different color signature, like a unique barcode that could identify the movies. (If you are colorblind you cas skip this part).
This result is mainly esthetic but I was hoping that the color variations could match the use frequency of the word "fuck". In the case where a rising of the movie tension could be expressed by diffrent color patterns as well as a more intense use of the word "fuck".

The method to create such an output is rather easy. In my case, I have used the software called ffmpeg taht allows, with a single command line, to extract pictures from a video at regular intervals.


ffmpeg -i TheWolfOfWallStreet.avi -vf -fps=1 thumbs%05.jpg

In this example, the command take as an input the video file and create at 1 frame by second a jpg picture iteratively numbered. The second part of the job is then to read these pictures one by one with your favorite software (I used R with the jpeg package) and convert each color matrices into one unique color value and then create the final pattern.

Results

The wolf of Wall Street

A nice peak around 2/3 of the movie with 60 fucks in 10 minutes.

Summer of Sam

Not bad, especially at the end

Casino

Again, a nice ending with 80 fucks in 10 minutes.

 Conclusion

The three movies analyzed have the same pattern, a peak near the end of the movie, where the action is more intense. We can also see a overall greyish color in all the movies. Casino is slightly more pinkish when The wolf of Wall Street is more grey-brown.It also could have been nice to make these graphs interactive, to be able to see the line and the picture of the scene when moving the mouse on the item.

 

The F word


Où il sera question de gros mots

(english version of the article)

Introduction

Cachez vos enfants, il va être question de gros mots dans cet article et principalement du mot "fuck" et de ses dérivés. Autant vous dire que ça ne va pas voler très haut. 
Dans le cinéma américain, le mot "fuck" est presque parfois considéré comme de la ponctuation (l’équivalent du "putaing" de nos amis marseillais) et certains films usent et abusent de ce mot afin de placer le spectateur dans un contexte de vulgarité devenue quotidienne. N'ayant rien inventé, je me suis servi de la liste wikipedia des films où le mot fuck est le plus cité.
Les deux premières places sont largement dominées par "Swearnet : the movie" et "Fuck : a documentary on the word" qui sont un peu hors-concours puisque le concept même de ces deux long-métrages consiste justement à se concentrer sur le mot "fuck". Ces deux opus utilisant en moyenne 9 fois le mot "fuck" par minute (on dira 9 FPM dans le système d'unités internationales). On est donc un peu dans le même esprit que l'épisode de South Park "It hits the fan" où le mot "shit" fut utilisé plus de 200 fois dans un épisode de 25 minutes, soit environ 8 FPM (si vous avez suivi cette nouvelle unité)
Il est donc préférable de se concentrer sur des films "normaux" (i.e qui cherchent à raconter une histoire et qui sont relativement connus) et l'on trouve alors dans le top trois, les films suivants :
1- Le loup de Wall Street, avec Leonardo Di Caprio qui contient 569 fuck à 3.16 FPM
2- Summer of Sam, de Spyke Lee, avec 435 fuck à 3.06 FPM
3- Casino, de Martin Scorcese avec Robert de Niro, avec 422 à 2.4 FPM

Les données

Nous avons vu, le comptage dans ces films a déjà été réalise, mais nous pouvons aller un peu plus loin en regardant leur répartition dans la chronologie du film. Il s'agit donc de localiser à quels moments ont été prononcés chaque occurrence. Pour cela il existe deux méthodes : la première (dite méthode papier-crayon) consiste à regarder intégralement le film et à noter sur une feuille de papier (et avec un crayon) l'instant où chaque occurrence apparait. C'est fastidieux et ça ressemble un peu à un jeu à boire (mais je vous déconseille de boire une gorgée à chaque fois, vous finiriez probablement au pied de votre canapé)
La seconde méthode (dite méthode de la feignasse) consiste à récupérer les fichiers de sous-titres de chaque film. Ces fichiers contiennent toutes les informations sur les mots prononcés et sur le timing (approximatif). Il suffit donc de parser ces fichiers à la recherche des informations qui nous intéresse.
Exemple de formatage :
124
00:06:06,089 --> 00:06:07,488
Hey, fuck him
.


On cherche donc les occurrences (dans la version anglaise du fichier évidemment) à l'aide d'expression régulières et on en déduit le timing. Dans l’exemple ci-dessus, la phrase apparait entre la 366ème et la 367ème seconde du film. En fonction de la position du mot fuck, dans la phrase, on peut en déduire une estimation de son timing. Ce n'est pas une méthode parfaite car les sous-titres apparaissent en général légèrement avant que la phrase ne soit prononcée, mais on n'est pas non plus à une seconde près.
De plus, j'ai aussi décidé d'inclure aussi dans le comptage les mots dérivés de "fuck", comme "fucking" ou "motherfucker" par exemple car il me semblait qu'ils s’intégraient eux aussi dans cet ensemble de vocabulaire.
Enfin, de manière arbitraire, j'ai aussi décidé de découper les résultats en tranches de 10 minutes.

Les images

J'étais donc parti pour faire un histogramme tout bête mais il n'était pas forcement visuellement très intéressant. J'ai décidé d'ajouter une information que j'avais déjà rencontré auparavant, qui ne porte pas vraiment de nom, il s'agit de la "couleur moyenne de chaque image d'un film, compressée en une seule image". Schématiquement, un film consiste en une suite d'images qui défilent au rythme de 24 par seconde. Chaque image est composée de pixels (de cases) qui ont chacune une couleur différente. Il s'agit alors, pour chaque image, de faire la moyenne des couleurs et de représenter cette image, ainsi que toute les autre dans une frise chronologique de nuances de couleurs.
Nous voyons le résultat pour cinq films différents ci-dessous : Wall-e, Aladdin et le monde de Némo ainsi que deux films de Wes Andersen, Moonrise Kingdom et Grand Budapest hôtel. On constate que chacun de ces film possède une signature visuelle très différente des autres, à la manière d'un code-barre qui identifierait de manière unique chaque film (si vous êtes daltonien, faites comme vous pouvez)




Le résultat est donc principalement à vocation esthétique mais, j'espérais néanmoins que les variations de teintes soient corrélées aux variations de fréquence d'utilisation du mot "fuck". Dans le cas où la tension du film serait représentée par des couleurs plus sombres et un vocabulaire plus vulgaire par exemple. Ainsi, les graphiques finaux représentent les deux éléments de manière superposée.
La méthode pour obtenir ce type de résultat est plutôt simple. Dans mon cas, j'ai utilisé le logiciel ffmpeg qui permet, grâce à une ligne de commande tout simples, d'extraire une image a intervalle régulier.

ffmpeg -i TheWolfOfWallStreet.avi -vf -fps=1 thumbs%05.jpg

Dans cet exemple, la commande prend en entrée un fichier vidéo et crée, au rythme de 1 image par seconde (1 fps), un fichier jpg numéroté de manière incrémentée. Il existe évidemment des tonnes d'options différentes permettant d'imaginer pleins de résultats différents.
La seconde partie du travail consiste alors à lire un par un ces fichiers avec votre logiciel préféré (j'utilise R et le package jpeg) et de convertir chaque matrice de couleur en une valeur unique de couleur. Et il reste juste à représenter toutes ces couleurs les unes à la suite des autres dans un graphique

Les résultats

Le loup de Wall Street

Un beau pic au deux tiers du film, avec 60 fuck en 10 minutes

Summer of Sam

Pas mal, surtout vers la fin

Casino

Là aussi, avec une fin en apothéose.

 Conclusion

On constate principalement que les trois films qui nous intéressent ont des pics autour des derniers tiers du récit et qu'ils sont composés de couleurs plutôt grisâtres et sombres même si Casino est plus dans les tons roses alors que le loup de Wall Street est plutôt dans les tons gris et marron clair.
Il aurait pu être sympathique de rendre ces graphiques interactifs, de voir la réplique et l'image quand on passe la souris sur chaque moment où le mot "fuck" est prononcé. (A étudier)

Momo Motus

Présentation du jeu

Motus est un jeu télévisé, diffusé en France depuis 1990 et dont il existe des équivalents dans de nombreux pays (parfois sous d'autres noms) Le règlement de Motus est le suivant, il consiste à trouver un mot mystère, d'un nombre de lettre fixé (entre 7 et 10 lettres) et commençant par une lettre donnée à l'avance. Les candidats ont le droit à 6 propositions pour trouver le mot sachant qu'à chaque mot donné les candidats disposent de 3 indications sur les lettres du mot qu'ils ont donné :
- En rouge les lettres bien placées dans le mot
- En jaune, les lettres présentes dans le mot mais mal placées
- Sans indication, la lettre n'est pas présente dans le mot

Le principe rappelle donc celui du jeu de plateau Mastermind où il faut retrouver une combinaison de couleur en se basant sur le même type d'indication "bien placé"/"mal placé".
Du bon boulot

Afin de maximiser les chances de réussite, les stratégies les plus classiques consistent dans un premier temps à proposer un mot contenant toutes les voyelles (afin d'orienter la suite de la recherche vers des mots qui ne contiennent que les voyelles nécessaires) et dans un second temps de proposer des mots qui feront apparaitre le plus de consonnes différentes (toujours dans le but d'orienter la recherche) et pour finir il suffit de remettre les lettres dans l'ordre.
Évidemment il s'agit de la théorie, dans la pratique les candidats peuvent aussi s'adapter aussi en cours de route aux lettres déjà trouvées pour essayer de les placer au bon endroit.

Stratégie

Une approche pour se simplifier un peu la vie consiste alors à apprendre par cœur une liste de mots (des "starters") qui permettent de maximiser le nombre de consonnes découvertes dès les premières propositions. Pour ce faire il "suffit" de disposer d'un dictionnaire au format txt contenant tous les mots possibles. Il existe par exemple le dictionnaire officiel du scrabble qui peut servir de source. Il faut néanmoins le filtrer un peu puisque certains mots acceptés dans le scrabble ne le sont pas dans Motus (par exemple les verbes conjugués, ce qui enlève une quantité importante de déclinaisons de mots).

Une stratégie qui a déjà été proposée (ici) consiste à trouver des n-uplets de mots qui minimisent le nombre de mots possibles. C'est une approche très pertinente qui correspond à la stratégie que l'on utiliserait naturellement au Mastermind, mais qui ne convient pas exactement dans le cas de Motus puisqu'elle suppose que le candidat connait tous les mots du dictionnaire (ce qui n'est probablement pas le cas). Cette approche est excellente si l'on souhaite qu'un ordinateur résolve le problème (car on minimise le nombre de coups nécessaires pour trouver la solution) mais pour un humain (normal) il est plus intéressant de maximiser le nombre de consonnes présentes afin d'orienter sa réflexion. Il manque parfois une seule lettre dans le mot, mais celui-ci peut rester très difficile. (Un des pire exemple est ASSASSIN, si vous ne proposez pas le S, vous aurez beaucoup de mal à trouver le mot, alors que par déduction un ordinateur pourra le trouver très rapidement)

Pour en revenir à la création de notre liste de mots, il faut par exemple tester dans un premier temps tous les mots de 10 lettres qui commencent par un A et regarder ceux qui possèdent toutes les voyelles (A,E,I,O,U). On trouve par exemple "autocratie". (Le premier A ne compte pas car il sera toujours bien placé et ne nous indiquera pas si il y a un autre A dans le mot, il ne faut donc pas tenir compte de la première lettre qui n'aide pas à la résolution)
Dans un second temps on cherchera les combinaisons de deux mots qui maximisent le nombre de consonnes différentes. On peut raffiner un peu en éliminant les consonnes peu "utiles" comme le K, le W, le Z.... Pour ce faire, il est possible de donner un score en fonction du nombre de consonnes différentes et du score au scrabble par exemple (puisque les lettres rares valent 10 points, on peut s'en servir pour pénaliser ce score afin de privilégier les consonnes les plus fréquentes).
Enfin pour terminer, il faut trier un peu à la main parmi les couples de mots les plus efficaces afin de sélectionner des mots relativement usuels. En effet, les équipes de Motus préfèrent que les candidats s'en tiennent à des mots "usités" et pas des mots que personne ne connait. Il faut donc parfois sacrifier notre optimisation sur l'autel des mots compréhensibles. (Vous constaterez qu'il reste cependant des "quicageon" et "plombagine" dans la liste finale pour vous faire comprendre ce que j’entends par "usité")
Enfin, la dernière subtilité que vous pourrez constater dans les tableaux de synthèse (à 9 et 10 lettres) est que le premier mot à apprendre dans la liste des mots de 10 lettres soit au pluriel afin qu'en enlevant le "s" terminal cela devienne un mot de 9 lettres. Et hop, ça fait du boulot en moins. 

Durant l’émission, comme chaque candidat parle en alternance, si vous parlez en premier, alors il faudra utiliser le mot contenant toutes les voyelles afin d'aider votre coéquipier. En revanche, si vous parlez en second il est préférable d'utiliser les deux autres mots (en supposant que votre coéquipier ai déjà proposé un mot contenant toutes les voyelles). En effet, toute cette stratégie présentée ci-dessus ne s'applique que dans le cas où vous ne pouvez pas vous entrainer avec votre partenaire (ou qu'il n'a pas envie d'apprendre des listes de mots)

Tableaux de mots

Pour les 10 lettres : Le premier mot contient toutes les voyelles (A,E,I,O,U) et les deux autres mots maximisent le nombre de consonnes différentes. La dernière colonne comptabilise le nombre de lettres différentes obtenues grâce au "MOT 1" et au "MOT 2" (il est a noter que la première lettre de chaque mot n'est pas comptabilisée car elle est toujours bonne et ne peut pas indiquer si cette lettre est une seconde fois présente dans le mot.

MOT VOYELLEMOT 1MOT 2NB LETTRES
AUTOCRATIEARCHIVAGESABSOLUMENT16
BALOURDISEBIOGRAPHESBOUCLEMENT15
COURTISANECHALUTIERSCAMBODGIEN15
DINOSAURESDOMPTABLESDEFIGURANT15
EQUATORIENEMBROCHEESEPILOGUANT16
FOURNAISESFIGURANTESFORMIDABLE14
GOUVERNAILGUIMBARDESGENOTYPAGE15
HUMANOIDESHAMBURGERSHANDISPORT14
INASSOUVIEINDUCTIVESIMPROBABLE17
JOURNALIERJAMBONNEAUJAVASCRIPT14
KABOULIENSKILOMETRESKIDNAPPEUR13
LABORIEUSELEADERSHIPLONGUEMENT14
MOUTARDIERMULTIMODESMAIGRICHON15
NUMERATIONNORVEGIENSNOCTAMBULE15
OVULATOIREOBJECTIONSORGASMIQUE15
PATROUILLEPRODUCTIFSPLOMBAGINE16
QUATERNIONQUEBECOISEQUADRUPLET13
RADIOLOGUERUBICONDESREGRIMPANT15
SPINOSAURESUBJECTIFSSPHEROIDAL16
TROUVAILLETOUCHABLESTRADUCTION15
UNIMODALESULCERATIFSUNIMODALES14
VADROUILLEVIDEOCLUBSVEGETARIEN14
WAKEBOARDSWINCHESTER13
XANTHIQUESXYLOGRAPHE15
YAOURTIEREYORKSHIRESYOUGOSLAVE12
ZODIACALESZENITHALESZURICHOISE12

Pour les 9 lettres, on notera donc que le "MOT 2" est (dans la plupart des cas) le "MOT 1" déjà vu dans la liste à 10 lettres et que le "MOT 1" de cette liste, fini lui aussi en "s" afin de facilement avoir des mots de 8 lettres.

MOT VOYELLEMOT 1MOT 2NB LETTRES
AUTOGAMIEABLUTIONSARCHIVAGE15
BAUDROIESBASCULANTBIOGRAPHE14
COUDRAIESCOMPAGNESCHALUTIER14
DINOSAUREDEDUCTIFSDOMPTABLE14
EUPATOIREEVOLUTIFSEMBRANCHE16
FOURNAISEFLAMENCOSFIGURANTE14
GAULOISESGONFLAGESGUIMBARDE13
HUMANOIDEHELIPORTSHAMBURGER13
INABOUTIEIMPOSABLEINDUCTIVE15
JALOUSIESJONGLEURSJEREMIADE12
KABOULIENKIDNAPPESKILOMETRE12
LABORIEUXLONGTEMPSLUCRATIVE14
MODULAIREMANGROVESMULTIMODE14
NOUGATINENUPTIALESNORVEGIEN13
OPERATIONOVULAIRESOBJECTION14
POULINAGEPLOMBAGESPRODUCTIF15
QUICAGEONQUARTILESQUOTIDIEN13
ROUMAINESRUBICONDSREPRIMANT14
SAOUDIENSSAMPLINGSSUBJECTIF15
TOUAILLESTREMPLINSTOUCHABLE14
UPPERCUTSUNIMODALE13
VAUDOISESVACHERINSVIDEOCLUB13
WEBRADIOSWINDSURFSWAKEBOARD12
XANTHIQUEXYLOCAMPE14
YACHTMANSYORKSHIRE12
ZODIAQUESZURICHOISZENITHALE12


Conclusion :

Cette méthode n'est pas optimale (car on omet des combinaisons de mots parfois plus judicieuse) mais elle à l'avantage de limiter le nombre total de mots à retenir ce qui est un avantage quand on doit apprendre la liste seul. Elle fonctionne relativement bien (je le confirme) et permet de s'appuyer sur des mots afin de ne pas être pris au dépourvu (le candidat n'ayant que 8 secondes pour réfléchir). 
Motus étant un jeu d'équipe, il est préférable de mettre en place une stratégie plus intéressante qui consisterait à être deux à apprendre une liste de mots, sans le mot contenant toutes les voyelles (qui seront découvertes de toute façon avec les 2-3 premiers mots) et de surtout privilégier les consonnes, en apprenant des triplets de mots plutôt que des duos de mots qui les maximisent par exemple. A tester.






Nom d'une dinde


L'origine du mot "dinde" selon les pays

L'animal fétiche des fêtes de fin d'années a une étymologie assez amusante (et différente) dans chaque pays. La première fois que l'on se rend compte de ces différences c'est évidemment quand on compare à sa traduction anglaise "turkey". En français, on à affaire à l'Inde et dans l'autre cas à la Turquie. En approfondissant le sujet on se rend surtout compte que c'est un gros bazar mondial. Dans la plupart des langues, cet animal porte le nom de son pays supposé de provenance. Souvent à tort, puisque l'on parle ici du genre Melagris gallopavo (traduit par gallo = "coq et pavo ="paon") originaire d'Amérique et plus précisément du Mexique. Animal dont l'exportation à commencé aux environs de 1550-1600 suite à la découverte de l'Amérique par Christophe Colomb (qui croyait être arrivé en Inde mais nous y reviendrons plus tard).

Le but est donc de lister, pour chaque langue (et chaque pays) quelle étymologie y est associée. Nous verrons qu'elle consiste principalement en trois noms de pays (Turquie, Inde et Pérou) et quelques autres particularités détaillées ci-dessous.

Les différentes catégories d'origines

La Turquie : Les anglophones disent "Turkey". Autour de 1540, les pintades de Numidie (en anglais guinea fowl : poulet de Guinée) étaient importées depuis Madagascar et transitaient par la Turquie. Leur apparence pouvant être confondues avec les dindes issues d'Amérique, l'ensemble de ces deux volailles aux origines différentes se sont appelées de la même manière. A noter qu'en Grèce, il semble qu'il existe le mot Tourkia (Τουρκία) mais aussi le nom gallopoula (poule de gauloise).

L'inde : La version française dinde, provient (vers 1600) de la forme abrégée poule d'Inde pour définir cet animal qui était originaire du Mexique situé à l’époque dans ce qui était appelé les Indes occidentales (pour ne pas les confondre avec les indes de l'est). Cette nomenclature étant héritée de la confusion de Christophe Colomb qui se pensait débarqué aux Indes lorsqu'il arriva en Amérique. Ce sont donc principalement les pays francophones qui reprennent cette appellation ainsi que quelques autres pays du bassin méditerranéen. Les turcs par exemple, ne vont évidemment pas appeler ces volailles "Turkey" parce qu'ils savaient évidemment que cela ne venait pas de chez eux, ils les nomment donc "hindi".
Il existe aussi d'autres versions indiquant que certaines dindes des Indes (américaines) étaient aussi importées via les Indes (de l'est) ce qui pourrait ajouter encore plus de confusion.

Le Pérou : On se rapproche du bon endroit. Les portugais (et les indiens - d'Inde) pensaient que l'animal venait du Pérou. C'est déjà mieux.

Le poulet/coq romain : Cette appellation (principalement arabe "dajája romia") est traduite littéralement par romain mais elle désigne aussi l'Europe en général, c'est plutôt dans ce sens qu'elle doit être interprété, c'est à dire poulet (ou coq) d'Europe. Au Liban, la dinde est aussi appelée "dik habash" ce qui signifie coq d’Abyssinie (ancien nom de l'empire Éthiopien)

Calicut : Du coté scandinave on préfère la forme Kalkoen/Kalkun qui fait ici référence à la ville indienne de Calicut, nommée aussi Kozhikode (mais à ne pas confondre avec Calcutta) d'où serait originaire cet animal.

La Hollande : En malais (parlé en Malaisie, à Singapour et Brunei) il s'agirait d'une poule de Hollande.

Le paon : En espagnol, le paon se dit pavo et c'est se mot qui sert aussi à désigner la dinde. Il est a noter que le nom latin de la dinde est Meleagris gallopavo. On retrouve donc ce suffixe et donc une explication de cette déformation. Au moins il n'y a pas de soucis quant à la provenance de l'animal avec cette version.

Les cris : Un peu moins certain, mais en Allemagne, truthahn aurait pour origine le cri émit par l'animal (littéralement "le coq qui fait trut"). En italien, dinde se dit "tacchino" et se rapporterait aussi au bruit de la bête (j'ai aussi trouvé une version indiquant que cela pouvait aussi provenir du mot "tache" mais la plupart des origines évoquent plutôt le cri de l'animal). Au Maroc, bien qu'utilisant aussi la version arabe, la dinde est aussi nommée bibi (qui serait là aussi une onomatopée) on dit bibi pour le dindon et bibi-ya pour la dinde.

Apparemment en gaulois on dit "glouglou"
Les poulets divers : Principalement en Asie, les dindes ne sont pas définies en fonction de la provenance mais plutôt de leur apparence. Ainsi, en Chine, la dinde se nomme "oiseau de feu", au Japon on le nomme "oiseau aux sept visages", en Birmanie et en Thaïlande il se nomme poulet éléphant.

On notera que les mexicains (qui parlent espagnols) disent principalement pavo mais il existe la forme issue de l'Aztec Heuhxolotl et sa version (hispanisée) guajolote.

La carte :

Cette carte a été réalisée de la manière suivante : chaque pays possède une (ou plusieurs) langues officielles, pour chacune de ces langues j'ai cherché la traduction et son origine et l'ai représenté dans une couleur associée a une des catégorie précédemment citée.
Ainsi, les pays ayant plusieurs langues officielles (le Canada, la Belgique par exemple) sont découpés (de manière relativement arbitraire) en zones de 2 ou 3 couleurs (selon le nombre de langues officielles). Pour le Luxembourg, qui possède 3 langues officielles (le français : dinde, l'allemand truthahn et le luxembourgeois Tierkei) je me suis permis de ne mettre qu'une couleur sur la cinquantaine de pixels que cela représentait - veuillez m'excuser de ce raccourci.
Ainsi, les différents dialectes propres à chaque pays peuvent ne pas apparaître ou ne pas exactement refléter l'expression réellement utilisée. Par exemple, au Mexique on parle espagnol, le Mexique est donc coloré de la même façon que l'Espagne. Cependant on dit pavo de manière usuelle mais aussi guajolote (même si pavo semble être la forme la plus utilisée). Il en est de même pour l'Arabe, où plusieurs versions du mot existent selon les pays et les dialectes mais la couleur sera toujours la même.

Cliquez pour agrandir

La carte ci-dessus présente donc une vision globale (et parfois incomplète dans certaines zones concernant des spécificité locales). Une version (plus précise) de cette étude à été réalisée à l’échelle européenne par des membres de l'université d'Amsterdam en détaillant (en anglais) de manière plus fine les nuances dans les différents dialectes européens (le détail va jusqu'à faire la différence entre le gallois, l’écossais, l'irlandais...) là où je me suis contenté de ne donner qu'une couleur au Royaume-Uni. En revanche, la forme "piot" qui serait présente dans le sud de la France m'est inconnue.
A noter qu'il existe certaines différences entre mes résultats et ceux du graphique ci-dessous (mais ne connaissant pas leurs sources je ne peux donc pas comparer les résultats)


Pour conclure, le tableau suivant (réalisé par mes soins) montre la liste des pays, les langues officielles et la traduction du mot dinde dans les différentes langues ainsi que l'origine du mot. Pour ce faire, j'ai utilisé différents traducteurs en ligne, consulté des sites et blogs parlant de ce sujet (oui, il y a d'autres personnes qui se demandent d'où vient le mot dinde/turkey dans chaque langue, je ne suis pas le seul, nous sommes légion).

Pour certains pays l'origine est disputée (comme pour le letton "titars"), pour d'autres pays je n'ai tout simplement pas trouvé l’étymologie des traductions (le Laos : ໄກ່ງວງ, la Corée : 칠면조, la Mongolie цацагт хяруул ou le malgache vorontsiloza par exemple). Et pour certaines langues je n'ai même pas trouvé de traduction du tout (si quelqu'un connait un bon dictionnaire français-tuvaluan je suis preneur)
Si vous avez des améltiorations à apporter ou si vous constatez des erreurs, n'hésitez pas à le signaler, je corrigerais avec plaisir.

PaysLangues officiellesTraductionOrigine
Afghanistanpachtoune, dari, ouzbekkurkaTurquie
Afrique du Sudafrikaans, anglaisTurkye/turkeyTurquie
AlbaniealbanaisTurqiTurquie
AlgériearabeتركياRomain
AllemagneallemandTruthuhnCri
Andorrecatalangall dindiInde
AngolaportugaisPeruPerou
Arabie saouditearabeتركياRomain
ArgentineespagnolpavoPaon
ArméniearménienհնդկահավInde
Arubahollandais, papiamentoKalkoenCalicut
AustralieanglaisturkeyTurquie
AutricheallemandTruthuhnCri
AzerbaïdjanazerbaïdjanaishinduskaInde
BahamasanglaisturkeyTurquie
BahreïnarabeتركياRomain
Bangladeshbengaliতুরস্কTurquie
BarbadeanglaisturkeyTurquie
Biélorussiebiélorusse, russeіндычкаInde
Birmaniebirmanကြက်ဆင်Poulet
Belgiquefrançais, flamand, allemanddinde/Kalkoen/TruthahnInde/Calicut/Cri
BelizeanglaisturkeyTurquie
BéninfrançaisdindeInde
BermudesanglaisturkeyTurquie
Bhoutantibétain dzongkha

BolivieespagnolpavoPaon
Bosnie-HerzégovineserbeТурскаTurquie
BotswanaanglaisturkeyTurquie
BrésilportugaisPeruPerou
Brunéimalaisayam belandaHollande
BulgariebulgareТурцияTurquie
Burkina FasofrançaisdindeInde
Burundikirundi, françaisdindeInde
CambodgekhmerតួកគីTurquie
Camerounanglais, françaisturkey/dindeTurquie/Inde
Canadaanglais, françaisturkey/dindeTurquie/Inde
Cap-VertportugaisPeruPerou
République centrafricainefrançais, sangodindeInde
ChiliespagnolpavoPaon
République populaire de Chinemandarin火雞Poulet
Chypreturc, grec,anglaisdinde/Τουρκία/turkeyInde/Turquie/Turquie
ColombieespagnolpavoPaon
ComoresfrançaisdindeInde
République du CongofrançaisdindeInde
Rép dém du CongofrançaisdindeInde
Corée du Nordcoréen칠면조
Corée du Sudcoréen칠면조
Costa RicaespagnolpavoPaon
Côte d’IvoirefrançaisdindeInde
Croatiecroatepuretina/puranPerou
CubaespagnolpavoPaon
DanemarkdanoiskalkunCalicut
Djiboutiarabe, françaisdinde/Inde/Romain
DominiqueanglaisturkeyTurquie
ÉgyptearabeتركياRomain
Émirats arabes unisarabeتركياRomain
ÉquateurespagnolpavoPaon
Érythréetigrina, arabeتركياRomain
EspagneespagnolpavoPaon
EstonieestonienTürgiTurquie
États-UnisanglaisturkeyTurquie
Éthiopieamhariqueየቱርክ ዶሮTurquie
Fidjifidjien, anglaisturkeyTurquie
FinlandefinnoiskalkkunaCalicut
FrancefrenchdindeInde
GabonfrenchdindeInde
GambieanglaisturkeyTurquie
GéorgiegéorgienთურქეთშიTurquie
GhanaanglaisturkeyTurquie
GibraltaranglaisturkeyTurquie
GrècegrecΤουρκίαTurquie
GrenadeanglaisturkeyTurquie
GuatemalaespagnolpavoPaon
GuinéefrenchdindeInde
Guinée-BissauportugaisPeruPerou
Guinée équatorialeespagnolpavoPaon
GuyanaanglaisturkeyTurquie
Haïticréole, frenchdindeInde
HondurasespagnolpavoPaon
HongriehongroispulykaPoulet
Indehindi, anglaisटर्कीPerou/Turquie
IndonésieindonésienkalkunCalicut
IranpersanبوقلمونPoulet
Irakarabe, kurdeتركياRomain
Irlandeirlandais, anglaisturkeyTurquie
IslandeislandaiskalkúnnCalicut
IsraëlhébreuטורקיהTurquie
ItalieitalientacchinoCri
JamaïqueanglaisturkeyTurquie
Japonjaponais七面鳥Poulet
JordaniearabeتركياRomain
Kazakhstankazakh, russeкүрке тауық/индейкаTurquie/ Inde
Kenyaswahili, anglaisUturuki/turkeyTurquie
Kirghizistankirghiz, russeиндюк/индейкаInde
Kiribatianglais, gilbertienturkeyTurquie
KoweïtarabeتركياRomain
Kosovoalbanais, serbeTurqi/ТурскаTurquie
Laoslaoໄກ່ງວງNA
Lesothosotho, anglaisturkeyTurquie
Lettonielettontītars
LibanarabeتركياRomain
LiberiaanglaisturkeyTurquie
LibyearabeتركياRomain
LiechtensteinallemandTruthuhnCri
LituanielituanienTurkijaTurquie
Luxembourgallemand, français, luxembourgeoisTruthuhn/dinde/TierkeiCri/Inde/Turquie
MacédoinemacédonienТурцијаTurquie
Madagascarmalgache, frenchvorontsiloza/dinde /Inde
Malaisiemalaisayam belandaHollande
Malawianglais, chichewaturkey/TurkeyTurquie
Maldivesdivehi

MalifrançaisdindeTurquie
Maltemaltais, anglaisdundjan/turkeyInde/Turquie
MarocarabeتركياRomain
Mauriceanglais, françaisturkey/dindeInde/Turquie
MauritaniearabeتركياRomain
MexiqueespagnolpavoPaon
Moldaviemoldave, roumainturciaTurquie
MonacofrançaisdindeInde
Mongoliemongoleцацагт хяруул
MonténégromonténégrinCuran
MozambiqueportugaisPeruPerou
NamibieanglaisturkeyTurquie
Népalnépalaisटर्कीTurquie
NicaraguaespagnolpavoPaon
NigerfrançaisdindeInde
NigeriaanglaisturkeyTurquie
NorvègenorvégienkalkunCalicut
Nouvelle-ZélandeanglaisturkeyTurquie
OmanarabeتركياRomain
OugandaanglaisturkeyTurquie
OuzbékistanOuzbekkurkaTurquie
Pakistanourdou, anglaisturkeyTurquie
PanamaespagnolpavoPaon
Papouasie-Nouvelle-GuinéeanglaisturkeyTurquie
Paraguayespagnol, guaranipavoPaon
Pays-BasnéerlandaisKalkoenCalicut
Pérouespagnol, quechuaPavo/Guajolote/huehxolotlPaon
Philippinesphilippin, anglaispabo/turkeyPaon/Turquie
PolognepolonaisTurcjaTurquie
Porto Ricoespagnol, anglaispavo/turkeyPaon/Turquie
PortugalportugaisPeruPerou
QatararabeتركياRomain
République dominicaineespagnolpavoPaon
République tchèquetchèquekrocanInde
RoumanieroumainTurciaTurquie
Royaume-UnianglaisturkeyTurquie
RussierusseиндейкаInde
Rwandakinyarwanda,français,anglaisdinde/turkeyInde/Turquie
St-Vincent-et-les-GrenadinesanglaisturkeyTurquie
SalvadorespagnolpavoPaon
Sénégalfrançais, wolof, peul, sérèredinde/koppinInde
SerbieserbeТурскаTurquie
Sierra LeoneanglaisturkeyTurquie
Singapouranglais,mandarin,malais,tamoulturkey/ayam belanda/வான்கோழிTurquie/Hollande
Slovaquieslovaquemoriak
Slovénieslovènepuran
Somaliesomalien, arabeتركياRomain
SoudanarabeتركياRomain
Soudan du sudanglaisturkeyاTurquie
Sri Lankacingalais, tamoulතුර්කියTurquie
SuèdesuédoiskalkonCalicut
Suisseallemand, français, italienTruthuhn/dinde/tacchinoCri/Inde/Cri
SurinamenéerlandaisKalkoenCalicut
Swazilandanglais, swatiturkeyTurquie
SyriearabeتركياRomain
Tadjikistantadjikмокиёни мурци марьон
Taïwanmandarin, taïwanais
Poulet
Tanzanieswahili, anglaisUturuki/turkeyTurquie
Tchadfrançais, arabedinde/تركياInde/Romain
Thaïlandethaïไก่งวงPoulet
Timor-Orientaltétum, portugaisPeruPerou
TogofrançaisdindeInde
TunisiearabeتركياRomain
Turkménistanturkmène, russeиндейкаInde
TurquieturchindiInde
Tuvalutuvaluan, anglaisturkeyTurquie
UkraineukrainienіндичкаInde
UruguayespagnolpavoPaon
VaticanitalientacchinoCri
VenezuelaespagnolpavoPaon
Vietnamvietnamiengà tâyPoulet
YémenarabeتركياRomain
ZambieanglaisturkeyTurquie
Zimbabweanglais, shonaturkeyTurquie