Articles

La social data a donc le droit à un V supplémentaire: la Visibilité. Ces données générées par les utilisateurs sont en effet visibles. On pourrait croire que cette donnée est facile à recueillir et quasi gratuitement. Ce n’est pas le cas.

Des données en partie privées

En réalité, seule une partie de la social data est visible par tous.

  • Certains réseaux sociaux sont publiques: c’est le cas de Twitter, Instagram, Flickr, Youtube.  Les publications sont accessibles à tous.
  • D’autres réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités sont bien publics.
  • Les conversations des utilisateurs sur les applications de messagerie comme Googlehangout, Messenger, Whatsapp, Wechat sont privées. Elles ne peuvent pas être analysées par un tiers.
  • Les discussions sur les forums peuvent être publiques ou privées.

L’ensemble des contenus et discussions par les utilisateurs sur les réseaux sociaux ou les forums ne sont donc pas visibles. Seules les données visibles peuvent être collectées pour être analysées. Collecter les données privées est illégal et relève du hacking de données.

Le scraping de données

De nombreuses données sont visibles sur internet. Avant de les analyser, encore faut-il les collecter. Plusieurs options sont possibles.

Il est parfois possible de recueillir les données via une API. C’est le cas par exemple des réseaux sociaux comme Twitter ou Facebook. Dans le cas de Twitter, leur APIs était plutôt ouverte il y a quelques années. Mais cela est désormais quasiment terminé. L’API publique de Twitter permet de récolter quelques milliers de tweets par jour, et vous n’avez pas accès à l’historique des tweets. Depuis que Twitter a racheté la société GNIP en 2015, il faut passer ce fournisseur de données pour récupérer les tweets, ainsi que l’historique des tweets. Et bien sûr, ce service est payant.

Quand cela n’est pas possible, les données d’un site web peut être recueillies en utilisant des techniques de scraping. Selon la définition Wikipédia, le web scraping (parfois appelé harvesting) est une “technique d’extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte”. C’est un peu comme si on faisait du copier-coller du contenu d’une page, sauf que le scraping est réalisé par un robot qui s’en occupe.

Il faut donc coder ces robots. L’écriture de ces programmes est réalisée par des développeurs. Cette première étape nécessite donc des compétences techniques spécifiques d’écriture de scripts. Ces programmes doivent être adaptés en fonction des sources crawlées. Par exemple, le programmeur qui veut scraper des commentaires Youtube doit indiquer dans son programme quels éléments il veut extraire (le titre de la vidéo, l’auteur de la vidéo, la date de la vidéo, le contenu du commentaire, la date du commentaire, le pseudo de l’auteur du commentaire). Il doit indiquer également au programme de cliquer sur la petite flèche pour faire défiler plus de commentaires, et y avoir accès. Il doit en effet reproduire le comportement humain, ou du moins ses clics.

L’auteur du script doit donc comprendre la structure du site web et de la base de données. Ainsi, “la vraie difficulté du scraping consiste à traiter les bonnes pages et les bons éléments au sein de ces pages pour extraire les informations désirées”. Ce travail doit être fait pour chaque site web, chaque plateforme. Le programme doit être mis à jour quand la structure du site web change.

Une fois que le programme a été écrit, les robots vont scraper le contenu. Cette étape n’est pas instantanée, elle peut prendre plusieurs heures, jours ou semaines en fonction de la quantité de données à recueillir.

Dans tous les cas, l’étape de recueil de données sociales est une étape qui nécessite du temps et de l’argent. La social data est certes visible mais elle ne se laisse pas cueillir si facilement.

Je vous ai parlé dans un précédent article de ce qu’était la social data. Je vais maintenant vous parler des caractéristiques de la social data avec ses 6V. Ce n’est pas une erreur de frappe, la social data a gagné un grand V en plus de la big data. Parce qu’elle le vaut bien.

La social data répond aux critères des 5V de la big data: Volume, Vitesse, Variété, Valeur, Véracité. Elle a une spécificité en plus: la Visibilité. La social data est une donnée visible par nous tous sur les réseaux sociaux, les blogs et les forums.

201703-social-data-6V

Volume et Vitesse: une symphonie sans fin.

La social data est de la donnée générée par les utilisateurs de façon spontanée. Nous sommes face à une explosion de cette donnée. Avec le digital et la multiplication des supports (ordinateurs, téléphones, tablettes, objets connectés), les internautes se connectent partout. Ils donnent leur avis sur les produits qu’ils achètent, les lieux qu’ils fréquentent, les restaurants, les hôtels, les monuments, les taxis. Ils en discutent sur les réseaux sociaux comme Facebook ou sur des forums spécialisés. Ils commentent le contenu généré par les marques sur Youtube ou Instagram. Et gare aux serveurs désagréables dans les cafés, leurs prestations ont maintenant un lieu de plainte: Tripadvisor (non non, je ne vise aucune ville en particulier quand je parle de la serviabilité de ses serveurs).

Et tout ça, ça fait beaucoup. Chaque jour, ce sont des millions de likes qui sont distribués, des millions de tweets qui sont écrits et retweetés. Les discussions ne s’arrêtent jamais sur le web, la conversation est permanente. La social data se remplit de ces conversations, commentaires, likes et dislikes, pouces en l’air et pouces en bas, et même de tous ces petits émojis et autre gifs.

La variété de la social data: une donnée protéiforme.

Les données générées par les utilisateurs sont diverses. La social data provient de différentes sources comme les médias sociaux, les blogs, les commentaires, les terminaux mobiles, les tablettes numériques, les objets connectés. Cette donnée prend de multiples formes. La social data est majoritairement du texte (toutes les langues, avec abréviations et émoticônes). Cela peut aussi être des images (Facebook, Instagram), des vidéos (Youtube). Et toutes ces données ne sont pas du tout structurées (oui, c’est plus fun comme ça).

La véracité: ah oui, vraiment ?

La véracité de la social data est souvent questionnée. J’entends parfois l’idée que ce qui se dit sur internet est faux, ou du moins en grande partie. Il ne servirait donc à rien d’analyser des avis et opinions qui n’expriment aucune réalité. Ce sont souvent les avis consommateurs qui sont pointés du doigt. Ce jugement est un peu rapide dans l’absolu. De plus, il occulte également l’impact de la social data sur les internautes qui lui est bien réel.

Oui, il existe un business de création de faux avis. Oui, certains avis proviennent des propriétaires eux-mêmes. Oui, certains avis peuvent être émis par des personnes et concurrents malveillants. La plus grosse plateforme d’avis touristiques Tripadvisor est régulièrement critiquée pour le manque de vérification des avis publiés.

Pour autant, l’ensemble de la social data n’est pas qu’un mensonge. Les millions de commentaires ajoutés sur les forums chaque jour ne sont pas générés par des entreprises spécialisées dans les faux commentaires en Asie. Les millions d’avis produits non plus et encore moins les blogs. Sur les sites comme Airbnb ou BlablaCar, seules les personnes ayant réellement utilisé le service peuvent émettre un avis. Cela limite fortement les fraudes. Sur la plateforme Amazon, certains avis sont estampillés “achat vérifié”. Et de façon plus générale, les avis seront de plus en plus certifiés par les plateformes elles-mêmes ce qui devrait contribuer à limiter les faux avis clients. Les vrais et faux commentaires existent et se côtoient. Malgré ce biais, l’analyse de la social data apparaît comme incontournable dans la mesure où elle a un impact sur les consommateurs.

En Chine, le développement du e-commerce s’est accompagné également d’une explosion du nombre de commentaires sur les produits. En traquant les commentaires sur neuf sites de commerce électronique en Chine, Kantar Media CIC a constaté que 70 % du buzz de certaines marques provenait uniquement d’avis utilisateurs.

Le bouche-à-oreille a toujours eu un impact plus fort sur nos prises de décisions, et ce bouche-à-oreille s’est industrialisé avec les plateformes d’avis et les sites de e-commerce. Il serait donc dommage de ne pas y tendre l’oreille car les consommateurs, eux, le font.

La valeur: le grand défi.

La valeur de la big data, c’est le graal que tout le monde recherche. On sait que la valeur est là quelque part, le souci est de la faire émerger, de la comprendre et de l’utiliser. Là ça devient autre chose. La social data n’échappe pas à cet impératif.

La difficulté de la social data, c’est sa nature même. C’est une donnée non structurée, principalement du texte, et également des images et des vidéos. Et ça, les algorithmes ont encore parfois du mal à comprendre ce que les humains racontent et à distinguer un chat d’un chien. Nous en sommes au début de l’analyse de la social data qui va se développer avec la précision des algorithmes.

La visibilité: la social data, si proche de nous.

Pour finir, la social data a une autre particularité. Elle est en grande partie visible.

  • Certains réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités le sont.
  • Certains réseaux sociaux sont publics: c’est le cas de Twitter, Instagram, Flickr, Youtube. Les publications sont accessibles à tous, ainsi que les commentaires.
  • Les discussions sur les forums peuvent être publiques ou privées.

Nous verrons prochainement comment ces caractéristiques génèrent un certain nombre de mythes autour de la social data.