The F word


Où il sera question de gros mots

(english version of the article)

Introduction

Cachez vos enfants, il va être question de gros mots dans cet article et principalement du mot "fuck" et de ses dérivés. Autant vous dire que ça ne va pas voler très haut. 
Dans le cinéma américain, le mot "fuck" est presque parfois considéré comme de la ponctuation (l’équivalent du "putaing" de nos amis marseillais) et certains films usent et abusent de ce mot afin de placer le spectateur dans un contexte de vulgarité devenue quotidienne. N'ayant rien inventé, je me suis servi de la liste wikipedia des films où le mot fuck est le plus cité.
Les deux premières places sont largement dominées par "Swearnet : the movie" et "Fuck : a documentary on the word" qui sont un peu hors-concours puisque le concept même de ces deux long-métrages consiste justement à se concentrer sur le mot "fuck". Ces deux opus utilisant en moyenne 9 fois le mot "fuck" par minute (on dira 9 FPM dans le système d'unités internationales). On est donc un peu dans le même esprit que l'épisode de South Park "It hits the fan" où le mot "shit" fut utilisé plus de 200 fois dans un épisode de 25 minutes, soit environ 8 FPM (si vous avez suivi cette nouvelle unité)
Il est donc préférable de se concentrer sur des films "normaux" (i.e qui cherchent à raconter une histoire et qui sont relativement connus) et l'on trouve alors dans le top trois, les films suivants :
1- Le loup de Wall Street, avec Leonardo Di Caprio qui contient 569 fuck à 3.16 FPM
2- Summer of Sam, de Spyke Lee, avec 435 fuck à 3.06 FPM
3- Casino, de Martin Scorcese avec Robert de Niro, avec 422 à 2.4 FPM

Les données

Nous avons vu, le comptage dans ces films a déjà été réalise, mais nous pouvons aller un peu plus loin en regardant leur répartition dans la chronologie du film. Il s'agit donc de localiser à quels moments ont été prononcés chaque occurrence. Pour cela il existe deux méthodes : la première (dite méthode papier-crayon) consiste à regarder intégralement le film et à noter sur une feuille de papier (et avec un crayon) l'instant où chaque occurrence apparait. C'est fastidieux et ça ressemble un peu à un jeu à boire (mais je vous déconseille de boire une gorgée à chaque fois, vous finiriez probablement au pied de votre canapé)
La seconde méthode (dite méthode de la feignasse) consiste à récupérer les fichiers de sous-titres de chaque film. Ces fichiers contiennent toutes les informations sur les mots prononcés et sur le timing (approximatif). Il suffit donc de parser ces fichiers à la recherche des informations qui nous intéresse.
Exemple de formatage :
124
00:06:06,089 --> 00:06:07,488
Hey, fuck him
.


On cherche donc les occurrences (dans la version anglaise du fichier évidemment) à l'aide d'expression régulières et on en déduit le timing. Dans l’exemple ci-dessus, la phrase apparait entre la 366ème et la 367ème seconde du film. En fonction de la position du mot fuck, dans la phrase, on peut en déduire une estimation de son timing. Ce n'est pas une méthode parfaite car les sous-titres apparaissent en général légèrement avant que la phrase ne soit prononcée, mais on n'est pas non plus à une seconde près.
De plus, j'ai aussi décidé d'inclure aussi dans le comptage les mots dérivés de "fuck", comme "fucking" ou "motherfucker" par exemple car il me semblait qu'ils s’intégraient eux aussi dans cet ensemble de vocabulaire.
Enfin, de manière arbitraire, j'ai aussi décidé de découper les résultats en tranches de 10 minutes.

Les images

J'étais donc parti pour faire un histogramme tout bête mais il n'était pas forcement visuellement très intéressant. J'ai décidé d'ajouter une information que j'avais déjà rencontré auparavant, qui ne porte pas vraiment de nom, il s'agit de la "couleur moyenne de chaque image d'un film, compressée en une seule image". Schématiquement, un film consiste en une suite d'images qui défilent au rythme de 24 par seconde. Chaque image est composée de pixels (de cases) qui ont chacune une couleur différente. Il s'agit alors, pour chaque image, de faire la moyenne des couleurs et de représenter cette image, ainsi que toute les autre dans une frise chronologique de nuances de couleurs.
Nous voyons le résultat pour cinq films différents ci-dessous : Wall-e, Aladdin et le monde de Némo ainsi que deux films de Wes Andersen, Moonrise Kingdom et Grand Budapest hôtel. On constate que chacun de ces film possède une signature visuelle très différente des autres, à la manière d'un code-barre qui identifierait de manière unique chaque film (si vous êtes daltonien, faites comme vous pouvez)




Le résultat est donc principalement à vocation esthétique mais, j'espérais néanmoins que les variations de teintes soient corrélées aux variations de fréquence d'utilisation du mot "fuck". Dans le cas où la tension du film serait représentée par des couleurs plus sombres et un vocabulaire plus vulgaire par exemple. Ainsi, les graphiques finaux représentent les deux éléments de manière superposée.
La méthode pour obtenir ce type de résultat est plutôt simple. Dans mon cas, j'ai utilisé le logiciel ffmpeg qui permet, grâce à une ligne de commande tout simples, d'extraire une image a intervalle régulier.

ffmpeg -i TheWolfOfWallStreet.avi -vf -fps=1 thumbs%05.jpg

Dans cet exemple, la commande prend en entrée un fichier vidéo et crée, au rythme de 1 image par seconde (1 fps), un fichier jpg numéroté de manière incrémentée. Il existe évidemment des tonnes d'options différentes permettant d'imaginer pleins de résultats différents.
La seconde partie du travail consiste alors à lire un par un ces fichiers avec votre logiciel préféré (j'utilise R et le package jpeg) et de convertir chaque matrice de couleur en une valeur unique de couleur. Et il reste juste à représenter toutes ces couleurs les unes à la suite des autres dans un graphique

Les résultats

Le loup de Wall Street

Un beau pic au deux tiers du film, avec 60 fuck en 10 minutes

Summer of Sam

Pas mal, surtout vers la fin

Casino

Là aussi, avec une fin en apothéose.

 Conclusion

On constate principalement que les trois films qui nous intéressent ont des pics autour des derniers tiers du récit et qu'ils sont composés de couleurs plutôt grisâtres et sombres même si Casino est plus dans les tons roses alors que le loup de Wall Street est plutôt dans les tons gris et marron clair.
Il aurait pu être sympathique de rendre ces graphiques interactifs, de voir la réplique et l'image quand on passe la souris sur chaque moment où le mot "fuck" est prononcé. (A étudier)

Aucun commentaire:

Enregistrer un commentaire