Articles

Le recueil de la social data: une étape sous-estimée

La social data a donc le droit à un V supplémentaire: la Visibilité. Ces données générées par les utilisateurs sont en effet visibles. On pourrait croire que cette donnée est facile à recueillir et quasi gratuitement. Ce n’est pas le cas.

Des données en partie privées

En réalité, seule une partie de la social data est visible par tous.

Certains réseaux sociaux sont publiques: c’est le cas de Twitter, Instagram, Flickr, Youtube. Les publications sont accessibles à tous.
D’autres réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités sont bien publics.
Les conversations des utilisateurs sur les applications de messagerie comme Googlehangout, Messenger, Whatsapp, Wechat sont privées. Elles ne peuvent pas être analysées par un tiers.
Les discussions sur les forums peuvent être publiques ou privées.

L’ensemble des contenus et discussions par les utilisateurs sur les réseaux sociaux ou les forums ne sont donc pas visibles. Seules les données visibles peuvent être collectées pour être analysées. Collecter les données privées est illégal et relève du hacking de données.

Le scraping de données

De nombreuses données sont visibles sur internet. Avant de les analyser, encore faut-il les collecter. Plusieurs options sont possibles.

Il est parfois possible de recueillir les données via une API. C’est le cas par exemple des réseaux sociaux comme Twitter ou Facebook. Dans le cas de Twitter, leur APIs était plutôt ouverte il y a quelques années. Mais cela est désormais quasiment terminé. L’API publique de Twitter permet de récolter quelques milliers de tweets par jour, et vous n’avez pas accès à l’historique des tweets. Depuis que Twitter a racheté la société GNIP en 2015, il faut passer ce fournisseur de données pour récupérer les tweets, ainsi que l’historique des tweets. Et bien sûr, ce service est payant.

Quand cela n’est pas possible, les données d’un site web peut être recueillies en utilisant des techniques de scraping. Selon la définition Wikipédia, le web scraping (parfois appelé harvesting) est une “technique d’extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte”. C’est un peu comme si on faisait du copier-coller du contenu d’une page, sauf que le scraping est réalisé par un robot qui s’en occupe.

Il faut donc coder ces robots. L’écriture de ces programmes est réalisée par des développeurs. Cette première étape nécessite donc des compétences techniques spécifiques d’écriture de scripts. Ces programmes doivent être adaptés en fonction des sources crawlées. Par exemple, le programmeur qui veut scraper des commentaires Youtube doit indiquer dans son programme quels éléments il veut extraire (le titre de la vidéo, l’auteur de la vidéo, la date de la vidéo, le contenu du commentaire, la date du commentaire, le pseudo de l’auteur du commentaire). Il doit indiquer également au programme de cliquer sur la petite flèche pour faire défiler plus de commentaires, et y avoir accès. Il doit en effet reproduire le comportement humain, ou du moins ses clics.

L’auteur du script doit donc comprendre la structure du site web et de la base de données. Ainsi, “la vraie difficulté du scraping consiste à traiter les bonnes pages et les bons éléments au sein de ces pages pour extraire les informations désirées”. Ce travail doit être fait pour chaque site web, chaque plateforme. Le programme doit être mis à jour quand la structure du site web change.

Une fois que le programme a été écrit, les robots vont scraper le contenu. Cette étape n’est pas instantanée, elle peut prendre plusieurs heures, jours ou semaines en fonction de la quantité de données à recueillir.

Dans tous les cas, l’étape de recueil de données sociales est une étape qui nécessite du temps et de l’argent. La social data est certes visible mais elle ne se laisse pas cueillir si facilement.

26 avril 2017/0 Commentaires/par Sylvie

Social & pub

Les règles du jeux sur les réseaux sociaux en 2015

Hervé Pépin, responsable de l’atelier mobilité et media sociaux du Sncd et président de Nexize est venu présenter les nouvelles règles du jeu sur les réseaux sociaux lors du salon e-commerce paris 2015 qui s’est déroulé du 21 au 23 septembre 2015 à Paris. L’occasion de rappeler quelques chiffres clés sur les réseaux sociaux, de parler de la puissance du réseau social Facebook, de l’importance d’avoir son application ou pas, de l’emailing et d’un peu de data.

Le mobile et les réseaux sociaux.

Les derniers chiffres issus du baromètre annuel des usages des internautes de la SNCD montrent à quel point la consommation de contenu a irrémédiablement changé avec internet et surtout avec la place de plus en plus grande du mobile. La grande majorité des français a accès à internet: 55 millions d’internautes sur une population totale de 66 millions d’habitants. Et c’est désormais le mobile qui est devenu le premier moyen d’accès à internet.

Et que font les mobinautes sur leur téléphone ? Ils vont sur Facebook. A lui seul, le réseau social représente 20% du temps passé sur les applications mobiles. Facebook déclare aujourd’hui 1,49 milliards d’utilisateurs actifs et quasiment 1 milliard d’utilisateurs quotidiens. 655 millions ne se connectent que sur mobile. Avec 1,8 millions de like par minute, Facebook est devenu un carrefour d’audience massif pour les marques qui représente à lui seul plus de 7% de dépenses publicitaires sur internet.

La palette d’outils mis à disposition par Facebook pour les marketeurs s’élargit de plus en plus. Il est possible de générer plus d’engagement sur les publications des marques (car sans investissement publicitaire, le taux de reach est faible et les fans ne voient tout simplement pas le post de la marque). Il est désormais possible de cibler des populations spécifiques, de travailler sur le téléchargement d’une application, de promouvoir une entreprise au niveau local.

Le paradoxe pointé par Hervé Pépin est que Facebook a désormais une meilleur connaissance client que les marques elle-mêmes, et que cela risque de s’amplifier. En tant que plateforme publicitaire, Facebook a tout intérêt à développer le temps passé sur son site et son application. Les marques doivent donc apprendre à utiliser les réseaux sociaux comme une source supplémentaire de connaissance client en exportant une partie de la data disponible sur facebook versus leur propre base de donnée client.

Brand content: responsive et social.

En 2015, Google a changé son algorithme pour favoriser les sites responsive c’est-à-dire ceux qui s’adaptent aux mobiles. Pourtant, en France, 64% des sites ne sont pas adaptés au mobile selon le panel yooda (avril 2015). Ces sites sont donc pénalisés par l’algorithme de référencement Google.

Les sites de marques doivent donc proposer un expérience adaptée au mobile et leur contenu doit renvoyer vers les réseaux sociaux. Il est important pour les marques de pouvoir comprendre et identifier les internautes qui partagent leur contenu et pour quelles raisons. Là encore, cette connaissance des ambassadeurs d’une marque ne doit pas être laissée aux réseaux sociaux.

Une application pour ma marque: pas forcément.

Si on assiste bien à une explosion de la part du mobile dans les usages, on pourrait croire que le développement d’une application mobile pour les marques soit la nouvelle priorité. Si l’application d’une marque ne fournit pas un service différent de celui offert par le site, elle aura du mal à émerger et à rentrer dans les habitudes d’utilisations des mobinautes. Hervé Pépin rappelle également qu’il faut que la marque ait les moyens de promouvoir fortement l’application afin d’être visible et donc téléchargée. L’application mobile reste encore optionnelle en 2015.

L’email: toujours là.

L’email demeure un canal d’actualité efficace dans un programme relationnel avec un ROI élevé. L’emailing devient plus automatisé et plus personnalisé. Il doit bien sûr être responsive pour que la consultation sur mobile procure une expérience positive. Et sa performance doit être analysée.

La data, pour comprendre.

Au final, les marketeurs ont à leur disposition de nouvelles sources de compréhension et de connaissance de leurs clients qu’il faut intégrer à leur propre base de donnée marketing et à leur segmentation client. Qui sont leur fans ? Leurs clients sont-ils tous fans de leur marque ? Qui sont les fans influents ? Il est urgent de prendre le contrôle de la data afin de garder la maîtrise de sa connaissance client selon Hervé Pépin.

Retrouvez le support de cette présentation sur slideshare.

Crédit photo : Unsplash

29 septembre 2015/0 Commentaires/par Sylvie

Social & pub

Vos likes sur Facebook en disent plus que vous ne le pensez

La scientifique Jennifer Golbeck explique comment le réseau social Facebook en sait plus sur nous que ce qu’on lui dit.

On pourrait penser que Facebook ne connaît que les informations qu’on veut bien transmettre (et c’est déjà beaucoup): notre âge, nos amis, notre famille, nos goûts, nos centres d’intérêt, nos activités, nos voyages. Vous avez tort si vous pensez cela, Facebook sait également ce que vous ne lui dites pas. Comment ? Tout en simplement en le déduisant grâce à toutes les informations que vous lui fournissez, même celles qui peuvent vous paraître insignifiantes. Les scientifiques sont en effet en mesure de créer des modèles qui prédisent des informations non déclarées.

En 2012, on avait beaucoup parlé de Target. Ce distributeur américain avait envoyé des bons de réductions à une adolescente de 15 ans pour des produits de puériculture: Target savait que la jeune fille était enceinte avant son père. Comment ont-ils fait ? Ils l’ont prédit en observant des petits changements dans sa consommation, même des petits détails comme l’achat d’un peu plus de vitamines, l’achat d’un gros sac qui peut servir de sac à langer (mais qui n’en est pas forcément un), l’achat un peu plus important de lotions hydratantes. Or tous ces petits détails mis bout à bout permettent d’en déduire qu’une femme est probablement enceinte, car tous ces petits détails ont déjà été observés auparavant.

De la même façon, Jennifer Golbeck explique qu’elle a développé un modèle qui permet de déterminer tout ce que vous n’avez pas déclaré sur les réseaux sociaux comme Facebook: votre sexe, votre âge, mais également vos opinions politiques, votre religion, la confiance que vous accordez à vos amis, votre intelligence.

Au fait, aimez-vous les frites ondulées ?

Il se trouve que si vous les avez aimé sur Facebook, il se pourrait bien que votre QI soit supérieur à la moyenne. Si vous ne voyez pas le rapport, c’est normal. Ce n’est pas parce que vous aimez les frites ondulées que vous êtes intelligent. En revanche, il se trouve que beaucoup de personnes avant un QI élevé ont déclaré qu’ils les aimaient. Or nous avons tendance à être amis avec des gens qui nous ressemblent. Résultat, le like de la frite ondulée s’est propagé dans un groupe d’amis et il se trouve que le premier like est peut-être venu de quelqu’un qui s’est dit qu’il avait envie de manger des frites entre deux cours de physique quantique. Les likes, ça se propage comme les virus: en touchant les gens autour de nous.

« Si c’est gratuit, c’est que vous êtes le produit »

La question est de savoir comment toutes ces données vont être utilisées et à qui elles appartiennent. Aujourd’hui, les utilisateurs des réseaux sociaux ne sont pas maîtres de leurs données et de leur utilisation. Jennifer Goldbeck ne pense pas que la solution viendra du pouvoir politique. Le business model des réseaux sociaux est basé sur l’utilisation des données personnelles, donc rien à attendre de ce côté non plus.

Afin de reprendre le contrôle des données personnelles, elle propose d’utiliser la science et propose deux pistes :

En informant l’utilisateur à chaque fois qu’il partage une information personnelle, il risque de partager également d’autres informations. Cette solution me paraît un peu compliquée à mettre en oeuvre concrètement.
En mettant à disposition des internautes des outils leur permettant de crypter leur informations. Les internautes pourraient alors partager les informations qu’ils désirent partager de façon plus éclairée. Là encore, cela me semble compliqué dans l’absolu. Si nous refusons que Facebook utilise nos données, alors on ne peut plus utiliser Facebook.

De la même façon que les réseaux sociaux, de nombreux sites d’informations sont gratuits sur le net. En échange, les internautes sont exposés à des publicités qui génèrent des revenus pour l’éditeur du contenu. Le logiciel AdBlock permet de bloquer ces publicités: c’est donc bien une solution technique qui est proposée aux internautes pour contourner ce modèle. En riposte, certains sites n’ont pas hésité à bloqué le contenu aux internautes utilisant des adblockers. Et des start-ups se créent déjà pour contrer ces adblockers et à leur tour les bloquer ! La guerre vient juste de commencer.

4 avril 2015/0 Commentaires/par Sylvie