Une coquille dans la pellicule

Quelques approximations dans les notes Allociné

Introduction

Cet article a pour but de mettre en évidence des petits problèmes quant à la notation de certains films sur le site Allociné. Pour ceux qui ne connaitraient pas ce site, Allocine.fr est un site français se concentrant sur le cinéma et dont la principale caractéristique est de fournir une fiche détaillée pour chaque film avec différents descriptifs sur les acteurs et sur le film en lui-même et qui permet aussi à ses utilisateurs de laisser leurs avis et de donner des notes (entre 0 et 5 étoiles) sur les films. Il existe aussi le site imbd qui est la référence américaine du cinéma et qui fonctionne sur le même principe.

 

Le problème

#RaconteTaLife. Je cherchais récemment à établir une liste des films populaires français. Pour ça je me suis donc tourné vers le site Allociné afin de m'aider à établir cette liste en me basant sur les note données par les spectateurs afin d'être plus neutre. Les notes des spectateurs présentes sur le site forment un échantillon plus représentatif des goûts de la population française que mon simple avis. J'utilise donc fréquemment ce site afin d'avoir une estimation de la qualité des films que je souhaite voir. La règle empirique consiste à dire qu'un film ayant une moyenne supérieure à 4 mérite d'être vu (on peut étendre cette limite jusqu’à 3.5). Les films avec une note supérieure à 3 restent corrects et peuvent être vus, mais ce ne sont pas des indispensables. Enfin, si la note moyenne donnée par les spectateurs est inférieure à 3, il y a de forte chance que le film ne soit pas très bon. Il faut évidemment toujours nuancer ces scores, car les goûts de chacun en matière de cinéma sont très différents. Mais globalement cette tendance se vérifie plutôt bien. (Bon, si comme moi vous n'aimez pas les films d'horreur, ça ne sert à rien de regarder un film d'horreur même si celui-ci a une très bonne note, vous ne l'aimerez pas quand même.)
Donc, en parcourant ces films, je suis alors tombé sur la fiche du film "Les enfants du marais". Je pense qu'on peut s'accorder pour dire que c'est un film plutôt bon et qui mérite d'être vu. Quel ne fut pas mon étonnement de constater que la moyenne des notes données par les spectateur n'est que de 2.5 ! C'est clairement très bas. Je ne comprenais pas comment cela avait pu arriver, le site me semblant très fiable habituellement sur ces moyennes. J'ai donc regardé plus en détail les avis des spectateurs et c'est là que j'ai compris que le site avait une double notation.

La double notation

Habituellement je regarde la note spectateur donnée en en-tête de la fiche du film et qui est donc la moyenne des notes laissées par les utilisateurs. Il existe cependant une autre méthode pour les utilisateurs, consistant à laisser un commentaire sur le film en plus de leur note. Dans ce cas-là, en bas de la fiche se trouve les critiques laissées par les spectateurs ainsi que leurs notes représentées dans un histogrammes. On se rend alors compte, dans le cas de ce film, que la distribution des notes laissées par les gens qui ont fournit une critique est bien meilleure. Cette moyenne n'est pas fournie mais on peut la calculer en regardant la distribution des notes. On obtient environ 4.2, ce qui me semble plus réaliste.


Quasiment aucun des spectateurs ayant laissé une critique n'a donné de notes inférieure à 3. Comment est-ce donc possible qu'il y ai une telle différence?

L'analyse des notes

Pour essayer de comprendre si cette différence était un cas isolé, j'ai donc décidé d'analyser les notes des films en comparant la note moyenne des spectateurs (dont on ne connait pas le détail) et la note moyenne des spectateurs qui ont laissé une critique (que l'on peut recalculer à partir de l'histogramme). Hop hop hop, on récupère les infos des 135 000 films présent sur le site, on supprime ceux avec moins de 50 critiques ce qui nous laisse donc avec 7864 films. On peut alors réaliser un graphique qui apporte les informations suivantes :


1-Chaque point sur le graphique représente un film. Il y a donc 7864 points sur ce graphique. La position sur l'axe horizontal (l'axe des abscisses) correspond à la différence entre la moyenne des notes données par l'ensemble des utilisateurs et la moyenne des notes données par les personnes ayant laissé une critique. On s'attend donc à ce que cette différence soit proche de 0. Cela indique que les deux notes sont à peu près similaires.

2- L'axe des ordonnées (la position verticale de chaque point) indique le nombre total de notes données sur ce film. En effet, en regardant les résultats du film "les enfants du marais" je me suis rendu compte que la moyenne est obtenue à partir de 100 827 notes. Ce qui me paraissait énorme (surtout pour ce film). A titre de comparaison, Titanic a été noté par 70 000 personnes et Bienvenue chez les ch'tis par 62 000 personnes (alors qu'il me semble que le succès de ces films est largement plus important).

3- Comme précisé au point précédent, il semble qu'il y ai une surabondance des notes par rapport aux critiques. La couleur des points indique donc le ratio entre le nombres de notes sans critiques et le nombre de notes avec critique. Sur les 3500 films analysés il y a environ 10 fois plus de gens qui ont simplement laissé une note que de gens qui ont laissé une critique (un ratio de 10 donc) et 90% des films ont un ratio inférieur à 25. La couleur des points représente une approximation de ce ratio. Les points en verts peuvent avoir jusqu'à 600 fois plus de notes que de critiques. (Je ne dis pas que c'est suspicieux mais cela reste notable)


Analyse du graphique

On constate bien que la différence entre la note globale et la note donnée par les utilisateurs ayant laissé un commentaire est proche de 0. Elle est légèrement inférieure à 0 mais cela s'explique probablement par le fait qu'il est possible de laisser des demi-points dans la notations mais que ceux-ci sont agglomérés avec le reste des notes dans l'histogramme. En bas du graphique, sont représentés deux intervalles (50% et 90%) qui montrent que 50% des films ont une différence de notation comprise entre -0.3 et +0.1 et que 90% des films ont une différence de notation comprise entre -0.7 et 0.4. Évidemment ces différences de notation sont parfois assez importantes quand le nombre total de note est plutôt faible (d'où l'étalement des notes pour les valeurs en ordonnées proches de 0).
Ce qui nous intéresse ici sont plutôt les notes avec énormément de votants. Et on retrouve justement notre film "les enfants du marais" à un emplacement très étrange sur le graphe. Il se retrouve très très haut (avec 100 000 notes c'est le 16ème film avec le plus de notes de tout le site) et sa couleur indique qu'il a beaucoup plus de notes que de critiques (le ratio est de 376 dans le cas de ce film)
Je ne sais pas ce qu'il se passe exactement. La seule chose est que ce film a de manière assez improbable énormément de notes sans commentaires et que, comme par hasard, elles font chuter sa moyenne en la faisant passer de 4.2 à 2.5. Un autre film dans ce cas-là est les films "les sept samouraïs". Alors certes, on peut dire qu'il s'agit d'un classique, mais un film de 1956 avec 100 000 notes (donc plus que "bienvenue chez les chtis") et une énorme différence de moyenne (elle passe de 1.8 chez ceux qui ont laissé une note à 4.4 chez ceux qui ont laissé un commentaire) ça semble très étonnant.

On constate aussi qu'il y a un ensemble de films avec un très grosse quantité de notes (mais pas forcement un grosse différence entre ceux qui on laissé des critiques et les autres). Pour les films "Camping", "Taxi" et "Top Gun" on peut (à la rigueur) supposer qu'il y a eu un certain engouement, mais je veux bien qu'on m'explique pourquoi "Palais royal" (film que tout le monde a oublié de 2005 avec Valérie Lemercier) et James bond contre Dr No (film de 1962) arrivent a dépasser les 120 000 votes. Même "les quatre fantastiques" (qui est loin d'avoir fait un carton au box office) fait plus de 200 000 votes (avec seulement 1 300 critiques) alors que dans le même temps "Spider-Man" de Sam Raimi a 50 000 votes et 1 400 critiques. On trouve aussi, de manière étonnante, "Talon aiguille" de Pedro Almodovar avec près de 100 000 votes (et seulement 147 critiques).

Conclusion

La seule explication que j'ai à ces divergences flagrantes viendrait du fait de robots qui auraient voté de façon massive pour ces films. Une personne qui aurait développé un script pour automatiser les votes et qui aurait pris (probablement au hasard) "les enfants du marais" pour faire ses tests.
malgré tout on constate que globalement la moyenne donnée par les utilisateurs correspond en grande majorité à celle donnée par les gens laissant des critiques et qu'à quelques exceptions près (à peine 3 ou 4 films sur les 7800) le site reste fiable.

Aucun commentaire:

Enregistrer un commentaire