Depuis que la Data a acquis ses lettres de noblesse (pas un jour sans qu’on puisse lire qu’une grande part de la richesse de l’entreprise se trouverait dans sa data muette et inexploitée, qu’il suffirait de savoir la faire parler afin d’y dénicher les bons « insights », d’y débusquer les corrélations porteuses qui pourraient se transformer en pépites d’or), un certain nombre de représentations visuelles sont devenues très populaires. Le WordCloud ou encore « nuage de mots » en est un bon exemple. La majorité des outils d’analyse de données, les présentations de sondages d’opinions, analyses de discours politique etc. mettent ce dernier à toutes les sauces. Plus ou moins pertinentes d’ailleurs.
Parenthèse tout d’abord sur la façon de constituer un WordCloud basique : Le WordCloud consiste en une présentation des mots les plus fréquemment utilisés dans un document (ou dans un corpus de documents, messages textes, réseaux sociaux etc.). Chaque mot est imprimé à l’aide d’une fonte, d’une taille, et éventuellement d’une couleur, qui sont proportionnelles à son importance relative dans le (ou les) document(s) sources. Les mots sont imprimés généralement à l’intérieur d’une forme rectangulaire, circulaire ou elliptique, sans recouvrement.
Cependant, pour qu’un WordCloud puisse constituer une information intéressante, ou une première impression utile, il importe de bien préparer en amont le « paquet de mots » (Bag of Words) qui va être soumis à l’algorithme présidant à sa génération. Le processus « classique » est dans les grandes lignes le suivant :
1. Ecrémage : l’ensemble de mots du document source est «nettoyé» des mots courants – dits « mots vides » – n’apportant aucune information signifiante à la représentation (verbes courants, conjonctions de coordinations, articles, pronoms personnels etc.), par exemple « le », « nous », « être », « de », « par » etc, seront éliminés.
2. Filtrage en fonction de la langue,
3. Stemming : ce processus consiste à réduire les mots à leurs racines. Par exemple les mots “développer”, “développant”, “développons”, « développé » sont résumés à la racine “développer”.
4. Comptage et Classement : l’algorithme (élémentaire) effectue le comptage du nombre de mots dans le/les documents sources,
5. Construction de la représentation graphique du WordCloud en commençant par placer les mots les plus courants en gros au centre puis sur une spirale partant du centre au fur et à mesure de la décroissance de leur importance relative.
Cette première approche peut produire des résultats intéressants, l’ensemble de mots généré donnant une première impression. Cela peut permettre aussi (par exemple dans le Butinomètre de PollenConsulting) un filtrage plus fin de la recherche et une navigation au sein du corpus documentaire source (ou dans un volume important de messages sur les réseaux sociaux). Mais cette représentation basique demeure souvent superficielle pour la génération de nouvelle information ou « perception » utile à une étude.
Dans le cadre d’une analyse ciblée (par exemple étude pour le compte d’une agence de voyage ou d’une enseigne particulière de la grande distribution) il peut être utile de trouver les mots particuliers, signifiants, qui ressortent par rapport à un secteur donné, à la concurrence, à d’autres produits, par rapport au langage courant etc. Pour cela, des algorithmes tels que TF-IDF (Term Frequency Inverse Document Frequency) permettent de pondérer chaque mot présent
it de bien choisir pour produire un résultat intéressant. Ainsi ressortirons les mots les plus spécifiques relatifs au sujet d’étude, et cela pourra donner une indication des points forts, points faibles, USP (Unique Selling Points) ou pour ce qui concerne les réseaux sociaux, une indication sur la façon particulière dont les gens parlent de « nous » relativement aux autres.
Les approches ci-dessus, fréquence basique des mots ou TF-IDF (mise en perspective) sont complémentaires. Chacune donne un éclairage particulier. Il existe d’autres algorithmes et manières intéressantes de générer des WordCloud. Certaines sont actuellement développées et évaluées par PollenConsulting. Nous pensons par exemple que le WordCloud peut gagner en lisibilité si des groupes de mots sémantiquement liés sont placés à proximité ou alors groupés en fonction des «domaines» (classes) auxquels ils peuvent être rattachés.
Pour conclure, si l’on veut donner du sens à un WordCloud, il faut non seulement bien le préparer mais aussi savoir l’exploiter en tirant partie des nombreuses possibilités de traitement qu’offrent les algorithmes aujourd’hui et demain :-).