Après avoir vu dans l’article précédent comment récupérer les données twitter avec Flume et Hive, j’ai voulu aller jusqu’à la visualisation des données.

Pour se faire, j’ai utilisé Hive pour calculer quelques indicateurs de sentiment. Le principe repose sur l’utilisateur d’une table de mots clés classés comme positif, neutre ou négatif. Il suffit ensuite de parser les tweets pour repérer les mots clés utilisés et calculer le sentiment du tweet. On voit tout de suite la limite de cette approche qui ne tient pas compte des tournures grammaticales. Le sujet est complexe et il existe un saut technique important pour passer d’une analyse lexicale à une analyse sémantique. De nombreux laboratoires ont lancé des recherches dans ce domaine.

Malgré cette limite, Twitter nous facilite la vie avec les hashtags et les informations que l’on peut récupérer comme le nombre de followers par exemple. Il devient aisé alors d’identifier les thématiques et la portée des tweets en fonction de l’audience potentielle.

J’ai utilisé également Hive pour identifier le pays d’origine des tweets à partir des indications sur les fuseaux horaires. Mon objectif était de pouvoir mettre en oeuvre les nouvelles fonctions cartographiques intégrées dans Qlik Sense.

Vous pourrez visualiser le résultat final dans la vidéo suivante. Bon film !