Big Data … Que du bonheur

C’est magnifique, avec le Big Data on peut tout faire, même mesurer le bonheur.

C’est ce que propose une équipe de scientifiques de l’Université de Vermont et de Mitre Corporation via le site www.hedonometer.com, en référence au philosophe irlandais Francis Edgeworth qui décrit à la fin du 19e siècle « un instrument idéal pour mesurer en permanence le degré de plaisir d’un individu ».

Ces scientifiques ont recueilli et analysé chaque jour depuis 2008 10% des tweets émis sur le web. Ils identifient ensuite les tendances, et distinguent les jours heureux et les jours tristes.

L’analyse se fait sur le choix de certaines expressions, recensés dans un dictionnaire de 10.000 mots. Chaque mot a une note, comme « Amour » qui pointe à 8,42 et « Guerre » à 1,8. Le traitement de ces Big Data donne ensuite une note à chaque jour de l’année. Le travail est effectué en hadoop sur AWS, le cloud d’Amazon ; il faut 3 heures sur 1500 processeurs pour traiter 4 années de tweets.

Ainsi émergent des jours tristes, comme le 15 avril qui marque l’attentat à la bombe sur le marathon de Boston. Et aussi des jours heureux comme Noël ou le jour de l’an. Mais le modèle n’est pas parfait ; ainsi le jour de la mort d’Oussama Ben Laden est considéré plus triste que la moyenne …

Le sujet fait polémique ; peut-on vraiment quantifier le bonheur ? Si on vous disait de donner une note de bonheur sur vos journées, sauriez-vous la donner ? Et cela pose aussi la question de la définition du bonheur, c’est quoi exactement ? Et si vous êtes heureux, allez-vous le tweeter ? Et si vous êtes malheureux ? Allez vous le garder pour vous ou le crier sur les toits ?

L’intérêt du projet, tant sur le plan ethnique que sur le plan économique semble limité. En effet, nous n’avons pas besoin de machine pour nous dire que nous sommes heureux à Noël et tristes lors d’un attentat, c’est évident ! Un autre projet s’appuyant sur ce type de données semble plus pertinent, il s’agit de donner les villes où il fait bon vivre en fonction des tweets géolocalisés ; attention à la flambée des prix dans la vallée du bonheur !

On pourra s’inspirer du fonctionnement du programme dans le cadre d’un projet big data, tout étant expliqué sur la FAQ du site ; on a même accès au dictionnaire de mots et leurs notes. Cette technique est à rapprocher des moteurs d’analyse d’opinion que l’on peut retrouver chez certains éditeurs, outil très intéressant par exemple pour étudier le churn via les commentaires clients, mais qui a ses limites comme le montre l’exemple de la mort d’Oussama Ben Laden ressortant comme événement triste.

Bref, que du bonheur ;-)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>