La social data a donc le droit à un V supplémentaire: la Visibilité. Ces données générées par les utilisateurs sont en effet visibles. On pourrait croire que cette donnée est facile à recueillir et quasi gratuitement. Ce n’est pas le cas.
Des données en partie privées
En réalité, seule une partie de la social data est visible par tous.
- Certains réseaux sociaux sont publiques: c’est le cas de Twitter, Instagram, Flickr, Youtube. Les publications sont accessibles à tous.
- D’autres réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités sont bien publics.
- Les conversations des utilisateurs sur les applications de messagerie comme Googlehangout, Messenger, Whatsapp, Wechat sont privées. Elles ne peuvent pas être analysées par un tiers.
- Les discussions sur les forums peuvent être publiques ou privées.
L’ensemble des contenus et discussions par les utilisateurs sur les réseaux sociaux ou les forums ne sont donc pas visibles. Seules les données visibles peuvent être collectées pour être analysées. Collecter les données privées est illégal et relève du hacking de données.
Le scraping de données
De nombreuses données sont visibles sur internet. Avant de les analyser, encore faut-il les collecter. Plusieurs options sont possibles.
Il est parfois possible de recueillir les données via une API. C’est le cas par exemple des réseaux sociaux comme Twitter ou Facebook. Dans le cas de Twitter, leur APIs était plutôt ouverte il y a quelques années. Mais cela est désormais quasiment terminé. L’API publique de Twitter permet de récolter quelques milliers de tweets par jour, et vous n’avez pas accès à l’historique des tweets. Depuis que Twitter a racheté la société GNIP en 2015, il faut passer ce fournisseur de données pour récupérer les tweets, ainsi que l’historique des tweets. Et bien sûr, ce service est payant.
Quand cela n’est pas possible, les données d’un site web peut être recueillies en utilisant des techniques de scraping. Selon la définition Wikipédia, le web scraping (parfois appelé harvesting) est une “technique d’extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte”. C’est un peu comme si on faisait du copier-coller du contenu d’une page, sauf que le scraping est réalisé par un robot qui s’en occupe.
Il faut donc coder ces robots. L’écriture de ces programmes est réalisée par des développeurs. Cette première étape nécessite donc des compétences techniques spécifiques d’écriture de scripts. Ces programmes doivent être adaptés en fonction des sources crawlées. Par exemple, le programmeur qui veut scraper des commentaires Youtube doit indiquer dans son programme quels éléments il veut extraire (le titre de la vidéo, l’auteur de la vidéo, la date de la vidéo, le contenu du commentaire, la date du commentaire, le pseudo de l’auteur du commentaire). Il doit indiquer également au programme de cliquer sur la petite flèche pour faire défiler plus de commentaires, et y avoir accès. Il doit en effet reproduire le comportement humain, ou du moins ses clics.
L’auteur du script doit donc comprendre la structure du site web et de la base de données. Ainsi, “la vraie difficulté du scraping consiste à traiter les bonnes pages et les bons éléments au sein de ces pages pour extraire les informations désirées”. Ce travail doit être fait pour chaque site web, chaque plateforme. Le programme doit être mis à jour quand la structure du site web change.
Une fois que le programme a été écrit, les robots vont scraper le contenu. Cette étape n’est pas instantanée, elle peut prendre plusieurs heures, jours ou semaines en fonction de la quantité de données à recueillir.
Dans tous les cas, l’étape de recueil de données sociales est une étape qui nécessite du temps et de l’argent. La social data est certes visible mais elle ne se laisse pas cueillir si facilement.