L’ADETEM a organisé le 15 novembre 2017 une journée sur l’intelligence artificielle et le marketing. L’intelligence artificielle est le buzzword de cette année 2017. Cette journée était l’occasion pour les marketeurs de se demander dans quelle mesure l’intelligence artificielle va bouleverser la façon de faire du marketing. Si vous n’avez pas pu venir, voici un petit résumé de cette journée qui fut passionnante.

Le début de la 4ème révolution industrielle ?

L’intelligence artificielle est considérée par certains comme un des piliers d’une 4ème révolution industrielle. C’est ce qu’a rappelé Jean-Philippe Desbiolles, vice-président IBM-Watson. L’intelligence artificielle ne serai seulement un nouvel outil mais un des éléments de cette 4ème révolution. Même si l’intelligence artificielle n’est pas complètement nouvelle, nous n’en sommes qu’au début.

L’intelligence artificielle est devenue possible grâce à conjonction de plusieurs facteurs: l’explosion des données liées à l’activité humaine et la capacité d’analyse de ces données. Pour autant, si les données produites sont aujourd’hui nombreuses, les entreprises ont encore des difficultés à les organiser pour les exploiter. Julien Levy, directeur de la chaire AXA Big Data parle d’un gâchis de données.

Après s’être beaucoup intéressé aux données structurées, l’intelligence artificielle s’attaque désormais à l’analyse des données non structurées:  le langage, le texte, le son, les images, les vidéos. Ainsi, l’intelligence artificielle comprend de mieux en mieux l’intention dans une phrase, et pas seulement les keywords.

Le paradoxe de l’intelligence artificielle est qu’elle fascine tout autant qu’elle n’inquiète. Parfois elle nous est présentée comme un miracle qui révolutionne déjà la médecine, la police ou la recherche d’emploi. D’un autre côté, son impact est aussi présenté comme menaçant. Il ne passe pas une semaine sans qu’un article ne sorte avec un titre accrocheur du type « les robots vont voler 50% des emplois d’ici 2025 » (c’est souvent très précis en plus).

Les enjeux actuels de l’intelligence artificielle

Julien Levy identifie 5 enjeux auxquels les entreprises doivent faire face avec l’intelligence artificielle:

  1. Une connaissance beaucoup plus étendue et fine des clients.
  2. Une relation clients automatisée qui n’écarte pas l’empathie: Cette mission pourrait être réalisée par des chat bots. Est ce que les gens auront conscience de parler à une machine ? Julien Levy pense qu’on aura les 2 types de chat bots: parfois on essaiera de tromper l’individu car l’empathie reste clé dans une démarche commerciale.
  3. L’automatisation du marketing quantitatif et le renforcement d’un marketing créatif : L’intelligence artificielle est particulièrement bien conçue pour se substituer aux spécialistes opérateurs du marketing quantitatif. Mais du coup, le rôle des être humains sera plus important en termes de stratégie et de créativité. Il faudra se montrer créatif dans l’utilisation de l’intelligence artificielle.
  4. La guerre des talents: les spécialistes de l’IA touchent des salaires astronomiques. De plus, certains préfèrent lancer leur propre projet entrepreneurial ce qui renforce encore le manque de talents pour les entreprises.
  5. Savoir gérer un projet data et IA: L’intelligence artificielle est un des éléments de la transformation digitale des entreprises.

L’IA dans le marketing, c’est maintenant

Cette journée a été l’occasion de parler de nombreux cas d’applications de l’intelligence artificielle dans le marketing. Plusieurs start-ups sont venues également présenter leurs offres basés sur l’intelligence artificielle.

Jean-Philippe Desbiolles, Vice-président IBM-Watson, a partagé un de leur projet pour une banque. IBM Watson ont un outil pour générer le profil de personnalité d’un individu à partir de 3000 mots écrits par cette personne. Ils ont appliqué cette analyse aux clients, aux prospects et au personnel de la banque. Cela leur a permis  d’identifier le niveau d’adéquation entre les clients/prospects et le personnel. Cette même analyse a été appliquée aux documents financiers pour valider un alignement entre les valeurs du clients et les valeurs de l’investissement par exemple. Ils se sont aperçus qu’ils devaient encore aller plus loin en profilant les clients avec des données publiques pour créer un score d’influence. Un client de taille moyenne pouvait en effet avoir un score d’influence élevé. On voit là encore l’importance grandissante de données plus qualitatives.

Frédéric Cavazza a rappelé que de nombreux outils basés sur l’intelligence artificielle existent déjà pour les marketeurs. Il existe des outils pour analyser l’audience et générer des segmentation, des outils de scoring et de ciblage qui permettent d’identifier par exemple les clients qui risquent de résilier un abonnement, des outils de recommandation, des outils de création de contenus, etc … Le choix est multiple et permet d’optimiser rapidement sa performance.

La start-up Synomia a développé un nouvel outil qui permet de visualiser les données de l’entreprise et les données externes provenant des réseaux sociaux sur une même interface. La start-up AlloMedia permet d’analyser les appels téléphoniques de clients et de relier ces appels avec ses données de navigation. Cela permet de prendre en compte une donnée précieuse qui ne l’était pas auparavant. La start-up Q°emotion s’intéresse à la détection des émotions dans les avis clients.

La fin du marketing, vive l’humain ?

Et si l’intelligence artificielle parvenait à aller tellement loin que tout sera automatisé ? Stéphane Mallard, Digital Evangelist, répond que l’enjeu n’est pas seulement de tout automatiser. On oublie que les consommateurs vont s’adapter face à cette intelligence artificielle qui sera utilisée par les marketeurs. Certains entrepreneurs répondent à ce besoin de contrôle par les utilisateurs. On peut citer les adblockers et les comparateurs de prix comme exemple. On peut alors supposer que plus le client sera informé, moins le marketing aura d’influence sur lui.

En revanche, Stéphane Mallard pense que c’est la diffusion rapide des produits et services de valeur qui va s’exacerber. L’information circule plus vite. Ce qui sera adapté à son environnement sera alors largement diffusé. Est-ce qu’il restera tout de même une petit place pour une course infinie entre le marketing et les consommateurs ?

Au final, il ne faut donc pas perdre de vue qu’au delà de l’intelligence artificielle, les consommateurs ont besoin de produits ou de services avec de la valeur. Amazon a une relation client exceptionnelle et cela n’a rien à voir avec l’intelligence artificielle. Et demain, ce qui fera la différence sera peut-être aussi l’empathie de la relation. Nous continuerons sûrement à aller chez le médecin pour son empathie même si l’intelligence artificielle détecte mieux les maladies que lui.

La social data a donc le droit à un V supplémentaire: la Visibilité. Ces données générées par les utilisateurs sont en effet visibles. On pourrait croire que cette donnée est facile à recueillir et quasi gratuitement. Ce n’est pas le cas.

Des données en partie privées

En réalité, seule une partie de la social data est visible par tous.

  • Certains réseaux sociaux sont publiques: c’est le cas de Twitter, Instagram, Flickr, Youtube.  Les publications sont accessibles à tous.
  • D’autres réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités sont bien publics.
  • Les conversations des utilisateurs sur les applications de messagerie comme Googlehangout, Messenger, Whatsapp, Wechat sont privées. Elles ne peuvent pas être analysées par un tiers.
  • Les discussions sur les forums peuvent être publiques ou privées.

L’ensemble des contenus et discussions par les utilisateurs sur les réseaux sociaux ou les forums ne sont donc pas visibles. Seules les données visibles peuvent être collectées pour être analysées. Collecter les données privées est illégal et relève du hacking de données.

Le scraping de données

De nombreuses données sont visibles sur internet. Avant de les analyser, encore faut-il les collecter. Plusieurs options sont possibles.

Il est parfois possible de recueillir les données via une API. C’est le cas par exemple des réseaux sociaux comme Twitter ou Facebook. Dans le cas de Twitter, leur APIs était plutôt ouverte il y a quelques années. Mais cela est désormais quasiment terminé. L’API publique de Twitter permet de récolter quelques milliers de tweets par jour, et vous n’avez pas accès à l’historique des tweets. Depuis que Twitter a racheté la société GNIP en 2015, il faut passer ce fournisseur de données pour récupérer les tweets, ainsi que l’historique des tweets. Et bien sûr, ce service est payant.

Quand cela n’est pas possible, les données d’un site web peut être recueillies en utilisant des techniques de scraping. Selon la définition Wikipédia, le web scraping (parfois appelé harvesting) est une “technique d’extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte”. C’est un peu comme si on faisait du copier-coller du contenu d’une page, sauf que le scraping est réalisé par un robot qui s’en occupe.

Il faut donc coder ces robots. L’écriture de ces programmes est réalisée par des développeurs. Cette première étape nécessite donc des compétences techniques spécifiques d’écriture de scripts. Ces programmes doivent être adaptés en fonction des sources crawlées. Par exemple, le programmeur qui veut scraper des commentaires Youtube doit indiquer dans son programme quels éléments il veut extraire (le titre de la vidéo, l’auteur de la vidéo, la date de la vidéo, le contenu du commentaire, la date du commentaire, le pseudo de l’auteur du commentaire). Il doit indiquer également au programme de cliquer sur la petite flèche pour faire défiler plus de commentaires, et y avoir accès. Il doit en effet reproduire le comportement humain, ou du moins ses clics.

L’auteur du script doit donc comprendre la structure du site web et de la base de données. Ainsi, “la vraie difficulté du scraping consiste à traiter les bonnes pages et les bons éléments au sein de ces pages pour extraire les informations désirées”. Ce travail doit être fait pour chaque site web, chaque plateforme. Le programme doit être mis à jour quand la structure du site web change.

Une fois que le programme a été écrit, les robots vont scraper le contenu. Cette étape n’est pas instantanée, elle peut prendre plusieurs heures, jours ou semaines en fonction de la quantité de données à recueillir.

Dans tous les cas, l’étape de recueil de données sociales est une étape qui nécessite du temps et de l’argent. La social data est certes visible mais elle ne se laisse pas cueillir si facilement.

Je vous ai parlé dans un précédent article de ce qu’était la social data. Je vais maintenant vous parler des caractéristiques de la social data avec ses 6V. Ce n’est pas une erreur de frappe, la social data a gagné un grand V en plus de la big data. Parce qu’elle le vaut bien.

La social data répond aux critères des 5V de la big data: Volume, Vitesse, Variété, Valeur, Véracité. Elle a une spécificité en plus: la Visibilité. La social data est une donnée visible par nous tous sur les réseaux sociaux, les blogs et les forums.

201703-social-data-6V

Volume et Vitesse: une symphonie sans fin.

La social data est de la donnée générée par les utilisateurs de façon spontanée. Nous sommes face à une explosion de cette donnée. Avec le digital et la multiplication des supports (ordinateurs, téléphones, tablettes, objets connectés), les internautes se connectent partout. Ils donnent leur avis sur les produits qu’ils achètent, les lieux qu’ils fréquentent, les restaurants, les hôtels, les monuments, les taxis. Ils en discutent sur les réseaux sociaux comme Facebook ou sur des forums spécialisés. Ils commentent le contenu généré par les marques sur Youtube ou Instagram. Et gare aux serveurs désagréables dans les cafés, leurs prestations ont maintenant un lieu de plainte: Tripadvisor (non non, je ne vise aucune ville en particulier quand je parle de la serviabilité de ses serveurs).

Et tout ça, ça fait beaucoup. Chaque jour, ce sont des millions de likes qui sont distribués, des millions de tweets qui sont écrits et retweetés. Les discussions ne s’arrêtent jamais sur le web, la conversation est permanente. La social data se remplit de ces conversations, commentaires, likes et dislikes, pouces en l’air et pouces en bas, et même de tous ces petits émojis et autre gifs.

La variété de la social data: une donnée protéiforme.

Les données générées par les utilisateurs sont diverses. La social data provient de différentes sources comme les médias sociaux, les blogs, les commentaires, les terminaux mobiles, les tablettes numériques, les objets connectés. Cette donnée prend de multiples formes. La social data est majoritairement du texte (toutes les langues, avec abréviations et émoticônes). Cela peut aussi être des images (Facebook, Instagram), des vidéos (Youtube). Et toutes ces données ne sont pas du tout structurées (oui, c’est plus fun comme ça).

La véracité: ah oui, vraiment ?

La véracité de la social data est souvent questionnée. J’entends parfois l’idée que ce qui se dit sur internet est faux, ou du moins en grande partie. Il ne servirait donc à rien d’analyser des avis et opinions qui n’expriment aucune réalité. Ce sont souvent les avis consommateurs qui sont pointés du doigt. Ce jugement est un peu rapide dans l’absolu. De plus, il occulte également l’impact de la social data sur les internautes qui lui est bien réel.

Oui, il existe un business de création de faux avis. Oui, certains avis proviennent des propriétaires eux-mêmes. Oui, certains avis peuvent être émis par des personnes et concurrents malveillants. La plus grosse plateforme d’avis touristiques Tripadvisor est régulièrement critiquée pour le manque de vérification des avis publiés.

Pour autant, l’ensemble de la social data n’est pas qu’un mensonge. Les millions de commentaires ajoutés sur les forums chaque jour ne sont pas générés par des entreprises spécialisées dans les faux commentaires en Asie. Les millions d’avis produits non plus et encore moins les blogs. Sur les sites comme Airbnb ou BlablaCar, seules les personnes ayant réellement utilisé le service peuvent émettre un avis. Cela limite fortement les fraudes. Sur la plateforme Amazon, certains avis sont estampillés “achat vérifié”. Et de façon plus générale, les avis seront de plus en plus certifiés par les plateformes elles-mêmes ce qui devrait contribuer à limiter les faux avis clients. Les vrais et faux commentaires existent et se côtoient. Malgré ce biais, l’analyse de la social data apparaît comme incontournable dans la mesure où elle a un impact sur les consommateurs.

En Chine, le développement du e-commerce s’est accompagné également d’une explosion du nombre de commentaires sur les produits. En traquant les commentaires sur neuf sites de commerce électronique en Chine, Kantar Media CIC a constaté que 70 % du buzz de certaines marques provenait uniquement d’avis utilisateurs.

Le bouche-à-oreille a toujours eu un impact plus fort sur nos prises de décisions, et ce bouche-à-oreille s’est industrialisé avec les plateformes d’avis et les sites de e-commerce. Il serait donc dommage de ne pas y tendre l’oreille car les consommateurs, eux, le font.

La valeur: le grand défi.

La valeur de la big data, c’est le graal que tout le monde recherche. On sait que la valeur est là quelque part, le souci est de la faire émerger, de la comprendre et de l’utiliser. Là ça devient autre chose. La social data n’échappe pas à cet impératif.

La difficulté de la social data, c’est sa nature même. C’est une donnée non structurée, principalement du texte, et également des images et des vidéos. Et ça, les algorithmes ont encore parfois du mal à comprendre ce que les humains racontent et à distinguer un chat d’un chien. Nous en sommes au début de l’analyse de la social data qui va se développer avec la précision des algorithmes.

La visibilité: la social data, si proche de nous.

Pour finir, la social data a une autre particularité. Elle est en grande partie visible.

  • Certains réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités le sont.
  • Certains réseaux sociaux sont publics: c’est le cas de Twitter, Instagram, Flickr, Youtube. Les publications sont accessibles à tous, ainsi que les commentaires.
  • Les discussions sur les forums peuvent être publiques ou privées.

Nous verrons prochainement comment ces caractéristiques génèrent un certain nombre de mythes autour de la social data.

Vous entendez parler de social data, mais qu’est-ce que c’est au juste ? La donnée présente sur les réseaux sociaux ? Pas seulement. La social data c’est un peu plus que cela. Et même beaucoup plus. Et en plus, elle est très spéciale.

Une data générée par les utilisateurs de façon active

La social data regroupe l’ensemble des données générées par les utilisateurs eux-mêmes, de façon active. Ce sont des données que l’on appelle également données UGC (User Generated Content).

La social data n’inclut pas les données générées par les utilisateurs de façon passive, comme par exemple les données de navigation suite à la visite d’un site web. La social data n’inclut pas le contenu généré par les marques ou les entreprises. En revanche, les commentaires de ces contenus sont des données générées par les utilisateurs.

Voici une liste non exhaustive et des exemples de médias basés sur des contenus générés par les utilisateurs.

  • Les réseaux sociaux: Facebook, Tencent QZone, Google +, Twitter, Baidu Tieba, Sina Weibo, Tumblr, Snapchat, Yik Yak, Whisper, Ello.
  • Les réseaux sociaux professionnels: Linkedin, Viadeo.
  • Les plateformes vidéo: Youtube, Dailymotion, Viméo.
  • Les plateformes d’images et de photos: Instagram, Pinterest, Flickr.
  • Les réseaux sociaux de diaporama: Slideshare.
  • Les réseaux sociaux de questions/ réponses: Quora, Ask, Yahoo Questions.
  • Les encyclopédies: Wikipédia.
  • Les blogs.
  • Les forums: Doctissimo, Aufeminin, Jeux-video.com.
  • Les commentaires d’articles de presse et de blogs.
  • Les commentaires du contenu posté sur les réseaux sociaux (commentaires des vidéos Youtube, commentaires des posts Facebook).
  • Les commentaires sur les sites de vente en ligne (Airbnb, Amazon, Booking, Sephora).
  • Les avis consommateurs sur des plateformes d’avis consommateurs (Ciao, Foursquare, Tripadvisor, Truspilot, Yelp).

L’explosion de la social data

Si l’explosion des données numériques n’est plus à démontrer, une partie de ces données sont générées par les utilisateurs. Il est impossible de connaître précisément le nombre de données générées par les utilisateurs au total sur le web. Voici quelques chiffres qui permettent de prendre compte de l’ampleur de la croissance de la social data.

  • Sur les 3,025 milliards d’internautes à travers le monde, 2,060 milliards sont actifs sur les réseaux sociaux, soit 68% des internautes et 28% de la population mondiale. Les internautes actifs passent ainsi 2 heures par jour sur les réseaux sociaux (moyenne mondiale). Les internautes français passent un peu moins de temps sur les réseaux sociaux: 1h30 par jour en moyenne (Source: Blog du modérateur).
  • Facebook, le plus grand réseau social, compte 1,49 milliard d’utilisateurs actifs mensuels (dont 30 millions en France). Chaque minute, 1,8 millions de likes sont distribués. 350 millions de photos sont ajoutées chaque jour (Source: Blog du modérateur).
  • Twitter compte 304 millions d’utilisateurs (dont 2,3 millions en France). 500 millions de tweets sont envoyés chaque jour (Source: Blog du modérateur).
  • Sur Instagram, 70 millions de photos partagées chaque jour (Source: Blog du modérateur).
  • Le nombre de blogs a été estimé à plus de 200 millions dans le monde en 2013, avec 3 millions de nouveaux blogs créés chaque mois.(Source: Blog Acti)
  • Le nombre d’avis sur Tripadvisor, le plus grand site d’avis de voyage au monde, compte 250 millions d’avis et opinions de voyageurs. 160 nouvelles contributions sont déposées chaque minute (Source: Tripadvisor).
  • 30 000 nouveaux messages sont postés chaque jour sur le plus gros forum français Doctissimo.

Des données non structurées

Les données générées par les utilisateurs sont principalement des données non structurées. Les données non structurées sont “des données représentées ou stockées sans format prédéfini. Les données non structurées sont typiquement constituées de texte brut, mais peuvent également contenir des dates, des nombres et des faits” (Source: Wikipédia).

La data non structurée générée existe sous de nombreuses formes: des messages courts ou longs, des textes entiers, du texte avec ou sans fautes d’orthographes, des abréviations, dans toutes les langues (même en klingon).

Tout l’enjeu de la donnée non structurée réside dans cette nature: comment redonner de la structure à cette donnée pour la rendre intelligible et utile pour générer de l’information.

A noter qu’une petite partie des données générées par les utilisateurs sur internet sont des données structurées. Par exemple: le nombre de likes d’un post sur Facebook, le nombre de commentaires sur un hôtel dans Tripadvisor, le nombre d’étoiles d’un produit sur Amazon.

Nous verrons dans les prochains épisodes de la social data à quoi elle peut servir pour générer de la connaissance client.

Deux enseignants chercheurs de l’Ecole Supérieur d’Ingénieurs de Léonard de Vinci (ESILV) sont venus parler de leurs travaux sur l’utilisation du big data appliqué au secteur du tourisme dans le cadre des conférences Person of Interest. Gaël Chareyron travaille sur les liens entre réseaux sociaux, big data et tourisme en développant des outils d’analyse et de data mining. Les thèmes de recherche de Jérôme Da-Rugna sont le big data et le traitement des images. Ils collaborent avec l’équipe interdisciplinaire de recherches sur le tourisme (EIREST) de l’Université de Paris 1 Panthéon-Sorbonne.

J’ai trouvé cette conférence intéressante car on parle beaucoup de big data et de l’énorme potentiel des millions de données, mais cela reste bien souvent très théorique. Les deux chercheurs expliquent leurs pistes d’exploration de l’utilisation de la big data avec de multiples exemples concrets.

Quelles sont les données actuellement disponibles pour comprendre un secteur comme le tourisme ? Les statistiques sont une première source d’information (données de fréquentation des gares, des aéroports, données issues des douanes) . Ce sont des données éparpillées. Une étape de recherche, d’analyse et de synthèse sont nécessaires pour les exploiter. Les études de marché sont une autre source d’information. Mais une étude de marché concerne souvent une problématique à un moment précis et les résultats d’études ne sont forcément librement partagés.

Utiliser les données des réseaux sociaux pour analyser le tourisme ?

Que pourrait-on savoir en exploitant les données disponibles sur internet ? Serait-il possible de savoir comment les gens circulent ? Comment ils sont venus sur ce lieu ? Ce qui les a motivé ? Si ils sont satisfaits ? C’est ce que cette équipe de chercheurs tente de faire.

Leurs sources de données sont diverses. Ils utilisent les réseaux sociaux Instagram, ainsi que les sites de photos comme flickr ou Panoramio. La plateforme d’avis Tripadvisor est bien évidemment une mine d’or. Et il est souvent possible de savoir quand et où une photo a été prise, et parfois par qui (sexe, âge, pays d’origine). En effet, l’intérêt ne réside pas seulement dans le contenu de ce qui est publié (la photo, le commentaire) mais également dans les méta-données qui l’accompagnent. L’équipe de chercheurs travaille également sur l’utilisation des données provenant d’autres sites comme Airbnb ou hotels.com.

Des exemples concrets d’utilisation de la data

Connaître le profil des touristes

La Suisse publie des statistiques précises de visite de chaque canton (nombre de touristes, pays d’origine, date). En utilisant les données issues de flickr, les chercheurs de l’ESILV ont réussi à obtenir des résultats corrélés à ces statistiques officielles. Ils ont ainsi pu identifier les zones fréquentées par les touristes français, par les allemands et les anglo-saxons.

Ils ont également mené ce genre d’analyse sur la France avec les données de Tripadvisor. Connaître la nationalité des personnes qui postent sur les réseaux permet ainsi d’identifier leur profil. Il est donc possible de faire ce genre d’analyse en fonction d’autres critères qui sont comme l’âge par exemple. Si vous vous demandez où vont les jeunes en vacances, les familles avec enfants ou les séniors, les réseaux sociaux sont une véritable source d’insights.

Comprendre les parcours de visite à Paris

En analysant la densité des photos sur Paris, ils ont pu identifier les zones les plus touristiques de la ville. Bien sûr, on retrouve la Tour Eiffel, les Champs Elysées, le centre historique de Paris. Mais en allant un peu loin, ils ont pu constater que la zone de la Tour Eiffel ne ressemblait pas à celle des Champs Elysées. Les touristes restent sur les Champs Elysées et s’aventurent assez peu autour de l’avenue. En revanche, ce n’est pas le cas autour de la Tour Eiffel. Il y a beaucoup plus de diffusion autour de ce site, les touristes s’aventurent sur une zone plus large aux alentours de la Tour Eiffel.

Connaître le parcours de visite d’un site touristique

L’équipe de chercheurs a également fait des analyses sur des zones beaucoup plus réduites. Ils ont utilisé les traces laissées par 5000 utilisateurs sur le parc du château de Versailles. En effet, les visiteurs font des photos lorsqu’ils visitent le parc et les postent sur Flickr et Instragram. Ils ont pu constater que de nombreux visiteurs suivent le chemin proposé par la brochure, surtout les touristes étrangers. Les visiteurs français ont eux plus tendance à déambuler dans le parc sans suivre le plan proposé par la brochure. Cela confirmerait-il que les Français ont une tendance à chercher de meilleures solutions que celles proposées de prime abord (une façon gentille de dire qu’ils sont un peu rebelles) ? Je ne sais pas, les chercheurs ne se sont pas aventurés à une explication sur ce point.

Une histoire qui ne fait que commencer

Les chercheurs donnent de nombreux autres exemples : l’analyse de ce qui se mange à Barcelone via les photos de repas sur Instagram, l’analyse des flux de circulation des touristes en Ile de France, la visite des lieux de mémoire, l’analyse des récits de la visite du Mont Saint Michel, l’analyse de la saisonnalité du tourisme à Paris.

Tous ces exemples montrent le potentiel encore inexploité de l’utilisation de la donnée dans la compréhension du consommateur et des clients. Nous n’en sommes qu’au début !

Si vous voulez voir la conférence en entier, elle est disponible sur youtube.

Je voudrais vous parler d’un MOOC très intéressant qui m’a été recommandé lors de mon entrée en Executive Master Data Strategy à MediaSchool. Le MOOC en question est disponible sur la plateforme OpenClassRooms. Il s’intitule Comprendre le Big Data à travers les films de cinéma. Comme il est parfois difficile de s’y retrouver dans l’offre de MOOC, je partage mon expérience.

Ce MOOC a été réalisé en collaboration avec des écoles d’ingénieurs prestigieuses (ENSAE ParisTech et ENSAE-ENSAI) ce qui est déjà un beau gage de qualité. Les deux orateurs du MOOC sont Guy Jacquemelle et Xavier Perret, co-auteurs du livre « Big data: Le Cinéma avait déjà tout imaginé » (éditions Kawa). Cependant il ne faudrait pas croire que ce MOOC ne s’adresse qu’aux ingénieurs, mathématiciens ou informaticiens. Si vous êtes dans le marketing comme quoi et que vous souhaitez avoir un cours pour mettre un peu d’ordre dans tout ce que vous avez déjà lu sur les données, la big data, la smart data, ce MOOC est fait pour vous.

instant-digital-ENSAE-ENSAI

Et si comme moi vous adorez les films de science fiction, n’hésitez plus, ce MOOC va vous plaire. Cependant, il n’est pas nécessaire d’être un fan de films de science fiction pour suivre. En effet, le parallèle entre le film de science fiction et le concept étudié sera toujours expliqué dans la vidéo. Si vous n’êtes pas fan de science fiction, vous pouvez donc y aller … et qui sait, cela vous donnera peut-être envie de découvrir certains classiques de la SF.

Ce que vous allez apprendre

Le MOOC m’a permis de structurer ce que j’avais déjà lu sur le big data et de retrouver une définition claire de nombreux concepts liés au big data (machine learning, intelligence artificielle, algorithme de recommandation, …). Le MOOC est divisé en 4 parties.

La première partie est la partie introductive qui rappelle ce qu’est le big data. La deuxième partie parle de prévision.  L’enjeu avec la big data n’est plus seulement de savoir ce que vous faites et aimez mais bien de prévoir ce que vous allez faire et aimer avant même que vous n’ayez demandé quoi que ce soit. Les concepts de overfitting (surapprentissage) et underfitting (sous-apprentissage) sont également abordés pour parler des possibles erreurs de prédiction. Il est également rappelé qu’une corrélation ne reflète pas toujours une relation de causalité. Enfin, si vous voulez comprendre un algorithme de recommandation comme celui de Netflix, le MOOC vous explique comment cela fonctionne. La troisième partie approfondit le fonctionnement des algorithmes: comment les algorithmes apprennent (machine learning). Vous y apprendrez l’origine de l’intelligence artificielle, et que l’IA est déjà parmi nous: nous nous en servons déjà tous les jours. La dernière partie s’interroge sur les risques et dérives possibles du big data.

Mon avis sur OpenClassrooms

La plateforme OpenClassrooms vous permettra d’accéder gratuitement à ses cours … dans la limite de 5 cours par semaine. Si vous n’êtes pas pressé, vous n’avez donc pas besoin de payer. Mais si vous voulez allé plus vite, être certifié ou télécharger les vidéos des cours, il vous faudra payer l’abonnement (à partir de 20€ par mois).

Attention tout de même quand vous vous inscrivez sur la plateforme: il s’agit d’un abonnement. Votre compte bancaire sera prélevé de 20€ tous les mois de façon automatique sauf si vous faites une demande à OpenClassrooms d’arrêt d’abonnement. Je me suis désabonnée sans souci quand je n’avais plus besoin d’accéder aux cours, cela se fait directement en ligne sur le site et mon abonnement s’est donc terminé à la fin du mois qui avait été payé. Le site de OpenClassrooms est donc un site clair, simple à utiliser et transparent sur ses tarifs et son fonctionnement.

Si vous êtes demandeur d’emploi, c’est gratuit. Grâce à un partenariat avec Pôle Emploi, les demandeurs d’emploi ont un accès Premium Solo gratuitement.

Les forums Doctissimo sont un lieu de discussion pour des milliers d’internautes. Il s’agit de la plus grande communauté francophone sur internet. Les doctinautes y trouvent un lieu pour échanger sur leurs maladies. Les femmes échangent sur leurs soucis quotidiens. Souvent, elles découvrent Doctissimo lors de leur première grossesse lorsqu’elles sont le plus à l’affut d’informations et qu’elle ressentent le besoin de parler avec d’autres femmes enceintes.

Le site dispose donc de données conséquentes et rares sur ses audiences. Les doctinautes fournissent des informations de façon déclarative mais également en discutant sur les forums. Outre les données socio-démographiques classiques, il est possible de suivre l’évolution de la composition du foyer, leurs habitudes de consommation, leurs hobbies et également leurs pathologies.

30 000 messages par jour

Comment valoriser ces données ? Lucia Lagarrigue, directrice des communautés de Doctissimo et Gilles Achache de Scan-Research sont venus parler de leur collaboration lors de la conférence Adetem du Club des Etudes de juin 2016.

Les insights sont potentiellement nombreux en analysant le contenu. Alors comment analyser des millions de message spontanés et 30 000 nouveaux messages par jour ? C’est sur ce constat que la société Scan Research a été fondée il y a 5 ans par Gilles Achache qui a développé un outil permettant le suivi quotidien du contenu des forums.

L’analyse se déroule en 2 temps. Les messages et leurs méta-données sont extraits en tapant des mots clés dans l’outil. Cette première étape permet aussi d’identifier les influenceurs du thème. Ce contenu est ensuite analysé via une grille d’analyse. La grille est réalisée par les équipes de Scan Research. Le programme d’analyse linguistique va pouvoir classer chaque message en suivant cette grille. Les programmes d’analyse linguistiques permettent aujourd’hui d’identifier que les verbatims comme « c’est trop cher », « je ne peux pas me le payer » ou « ça coûte une blinde » correspondent tous à l’idée que le produit est trop cher.

Les données sont au final restituées sur des dashboards accessibles en ligne. Il est possible de retrouver chaque verbatim qui a servi à faire l’analyse globale.

Un outil d’analyse pour la régie de Doctissimo

La régie de Doctissimo est ainsi en mesure de fournir un service supplémentaire aux annonceurs avec un meilleur ciblage et une meilleure adéquation des messages à la cible. Les opérations spéciales peuvent bénéficier d’un niveau d’affinité supplémentaire. La régie propose des études de marché en plus de la vente de l’espace publicitaire. L’analyse des forums permet à la rédaction d’adapter son contenu aux sujets identifiés dans les forums.

Il est également possible d’analyser l’impact des bannières publicitaires des annonceurs sur le contenu des forums. Cela complète les mesures quantitatives classiques de performance comme le nombre d’impression ou le taux de clics d’une bannière. Il est ainsi possible de savoir si les bannières ont généré plus de conversations et si le contenu est en phase avec les objectifs publicitaires. C’est donc un impact plus qualitatif sur les échanges des doctinautes qui est identifié. On peut dire qu’ainsi la boucle est bouclée.

Les instituts de sondage ne vous appellent jamais ? Vous avez envie de donner votre avis et pas seulement aux élections ? Et vous avez envie de faire entendre votre voix sur de multiples sujets? Voici la promesse de GOV, l’application mobile créée en janvier 2014 par Bobby Demri et Pierre-Alexandre Teulié: pouvoir vous exprimer en toute liberté. Les mobinautes peuvent donner leur avis tous les jours sur les personnalités politiques et  sur tous les sujets de société.

Comment ça marche ?

Il suffit de télécharger l’application sur votre mobile. Bravo, vous faites désormais partie de la communauté des GOVers.

Vous n’avez plus qu’à répondre aux GOVs du jour. Vous pouvez voter « Pour » ou voter « Contre ». C’est simple mais cela autorise peu de nuance. Une fois que vous avez voté, les résultats du GOV s’affichent et vous voyez si les GOVers pensent comme vous. Quelques statistiques sont également disponibles (sexe, région, affinité politique). L’âge n’est pas renseigné en revanche: dommage, c’est une variable importante et j’aurai été curieuse de voir si toutes les tranches d’âge utilisent GOV. Pourtant j’ai bien renseigné ma date de naissance dans mon profil GOV, la donnée est donc disponible.

GOV

Il est également possible de créer des GOVs. Vous écrivez votre question, dans la limite de 140 caractères comme dans Twitter. Les mobinautes sont donc libres de choisir les sujets d’actualité sur lesquels ils veulent que la communauté de GOVers réagisse. Pas besoin d’attendre un questionnaire pour y répondre: tout le monde peut créer son propre questionnaire sur cette application.

Je GOVe, tu GOVes, il GOVe, nous go(u)vernons?

L’objectif des fondateurs n’est pas seulement de créer des sondages. Ils veulent inverser la source en offrant une plateforme sur laquelle les citoyens peuvent s’exprimer librement. La politique étant un sujet impliquant, les gens ont envie de partager leur avis. C’est une approche également pertinente quand on pense à la difficulté croissance pour les instituts de recruter et de garder de nouveaux répondants dans leurs access panels, surtout sur la cible des plus jeunes.

Les deux fondateurs ont eu l’idée de créer cette application à la suite des Printemps Arabes dans lesquels les réseaux sociaux ont joué un rôle clé. Ils sont venus parler du lancement de leur application en Tunisie au HUB Forum Paris en octobre 2015. (Vous pouvez regarder leur intervention dans la vidéo en haut de cet article.)  Une application GOV dans Facebook a été développée pour son lancement en Tunisie (98% des tunisiens qui ont internet utilisent Facebook). Trois après la révolution, les tunisiens étaient appelés à voter pour leur nouveau président en novembre 2014.

GOV s’est associé avec l’ONG tunisienne « Jeunesse Décide » (Youth Decide) qui a participé à la diffusion de l’application auprès de la jeunesse tunisienne. Les blogueurs tunisiens ont remplacé leur photo de profil par le logo GOV pour inciter à l’utilisation de l’application. Plus de 800 000 opinions ont été données en moins de 30 jours en Tunisie. De nombreux médias ont relayé ce lancement, et certains candidats ont même publiquement encouragé les Tunisiens à s’exprimer sur GOV.

L’application a permis de prédire une semaine à l’avance l’ordre des 5 premiers candidats à la présidentielle tunisienne, lors du premier tour.

Un nouvel outil qui va remplacer les sondages d’opinion ?

Certes, GOV ne se présente pas comme une application qui permet de faire des sondages politiques. Mais Pierre-Alexandre Teulié affirme qu’il réussit à prédire les résultats des élections, comme par exemple lors des dernières élections départementales en France. L’outil n’est pourtant pas basé sur un panel représentatif de la population comme c’est le cas pour les instituts de sondage.

GOV pourrait même faire quelque chose que les sondages ne peuvent pas: observer des signaux faibles ou des moments plus éphémères comme par exemple l’explosion de la côté de popularité du président François Hollande le soir des attentats du 11 janvier 2015 qui était montée à 80%. L’avenir nous dira si GOV préfigure une nouvelle façon  de sonder l’opinion publique de façon plus fine et instantanée.

En attendant, vous pouvez en ce moment vous exprimer sur la COP21 sur GOV. Les avis sont affichés en direct sur 1600 panneaux digitaux dans toute la France.

Crédit photo : Flickr /s3aphotography /Quick pick it up before Lord Vadar sees..

L’utilisation de la vidéo dans les études marketing reste encore basique. Les groupes qualitatifs ne sont pas systématiquement filmés, et parfois il n’y a qu’un enregistrement audio. Les vidéos permettent à l’annonceur de revoir les groupes auxquels il n’a pas assisté. Elles servent également à l’institut d’étude pour faire son analyse et si besoin pour faire la retranscription si elle n’a pas été faite en direct. Et puis la vidéo finit gentiment sa vie au stand archive à côté de ses autres copines vidéos.

Il serait pourtant intéressant de réussir à exploiter cette masse de données qualitatives pour garder cette parole consommateur si précieuse et chèrement payée. J’ai rencontré Alexandre Waquier qui m’a présenté l’outil Studiocode qui permet de tagger les vidéos pendant leur enregistrement, de les annoter si nécessaire avec des commentaires ou des verbatims, et ainsi de faire des montages vidéos de façon simple et rapide.

La société Sportstec commercialise le logiciel Studiocode  – sous le nom de Sportscode dans le sport – auprès des clubs qui utilisent de plus en plus la vidéo pour comprendre et analyser la performance des joueurs. Durant un match de tennis, l’entraîneur peut ainsi tagger les moments clés, les moments à revoir, les coups décisifs simplement en cliquant sur son ipad. Il peut ensuite revoir avec le joueur les moments qu’il souhaite de façon rapide. Studiocode est également utilisé dans le monde de la pédagogie dans les écoles de médecine par exemple pour filmer les simulations d’intervention.

Comment ça marche ? Une grille personnalisée est construite avant l’événement que ce soit un événement sportif, un groupe qualitatif, un entretien, une simulation, un cours ou une conférence. La grille est personnalisée, il suffit de créer des boutons avec le logiciel Studiocode. Il faut cliquer ou toucher sur ces boutons pendant l’enregistrement pour que la vidéo soit taggée.

A quoi ça sert ? Il est possible ensuite rapidement de revoir uniquement les moments en fonction des critères qui ont été taggés. Le montage vidéo est également facilité par ce taggage car il suffit de choisir les extraits à garder. Des statistiques sont également disponibles sur les éléments taggés.

Et dans les études qualitatives ? L’utilisation de ce type d’outil pour les groupes qualitatifs permet de mieux exploiter la vidéo. Studiocode permet un montage vidéo semi-automatique du focus group. Il est possible de créer une courte vidéo récapitulative des verbatims pertinents . La vidéo se transforme alors en support de l’analyse de l’institut d’études.

Par exemple, il suffit de créer un bouton « concurrence », qui sera cliqué quand les participants parlent des produits concurrents. A la fin du focus group, il sera simple de retrouver tous les moments pendant lesquels les participants parlent de la concurrence et de réaliser un montage assez rapidement.

L’institut d’études BVA utilise Studiocode pour ses groupes qualitatifs mais également pour des études shopper. Dans le cadre d’une étude réalisée pour un distribueur, le client était filmé dans le rayon par l’enquêteur qui taggait la vidéo en direct. Ce taggage était tout simplement la grille d’observation mise sous ipad pour l’occasion et reliée directement au logiciel Studiocode.

Crédit photo : Flickr /davidd / On Set with Roger Corman

La data c’est le fameux or noir du 21ème siècle. Elle est partout à tel point qu’on l’appelle « big data ». Encore faut-il que nous puissions prendre connaissance de cette data. C’est tout l’enjeu de la datavisualisation. J’ai rencontré Marjolaine Baratte, directrice marketing de la start-up française Vizzboard qui m’a parlé des avantages de la datavisualisation.

La data visualisation, c’est quoi ?

Les outils de datavisualisation permettent de créer des tableaux de bords qui vont permettent aux entreprises de piloter leur entreprise. Il s’agit de tableaux de bords agiles, qui peuvent être modifié en fonction des besoins de chaque entreprise ou de chaque personne au sein d’une même entreprise.

Ces outils ne s’adressent pas seulement aux grosses entreprises qui ont des milliers de clients, 300 boutiques et 10 sites internet. Les PME aussi sont concernées par l’explosion des données et ont besoin d’outils simples pour les visualiser. La data visualisation permet à toutes les entreprises de lire leurs données sans avoir besoin de statisticiens.

C’est bientôt la fin des rapports powerpoint basés sur des graphs excel remplis de liens qui avaient le don de se mettre à jour quand ils le souhaitaient (ou pas). Les données disponibles sont devenus trop complexes et trop nombreuses pour être gérées avec ces outils trop statiques et peu souples.

Les outils de data visualisation sont donc des outils d’aide à la décision qui permettent aux entreprises d’accéder et de lire leurs données de façon plus simple, plus claire et plus agile. Il ne faut pas confondre la data visualisation avec l’infographie qui est une présentation visuelle de données à un moment donné. Les infographies sont des images utilisées pour faciliter la compréhension d’un phénomène et sont souvent utilisées à des fins de communication.

Vizzboard, pour créer facilement des tableaux de bord intuitifs et partagés

Vizzboard a été créée en juin 2014 par François Cuillé et Olav Snoek et propose un outil 100% web, en mode SaaS. Les avantages de Vizzboard sont multiples.

  • Simplicité: une prise en main rapide grâce à un outil intuitif. Pour s’en rendre compte, il est possible sur leur site de faire un test gratuitement en téléchargeant son propre jeu de données (ou d’utiliser leur propre exemple).
  • Collaboratif: la possibilité de partager les tableaux de bords avec ses équipes, ses collaborateurs, sa hiérarchie, ses clients (avec des droits de modification ou seulement en lecture seule).
  • Interactivité des données et des rapports: il suffit de cliquer sur un pays, un vendeur, une zone pour que l’ensemble du tableau de bord se mette à jour automatiquement, sans effort.
  • Mobilité: les données sont stockées sur le cloud, l’outil est donc utilisable quel que soit l’endroit où vous êtes.
  • Autonomie: les équipes qui exploitent les données sont autonomes dans la création de tableaux de bords et leur mise à jour.
  • Gain de temps: un gain de temps pour lire les données et donc pour prendre des décisions.
  • Coût: 30€ par mois par utilisateur.

Vous pouvez tester l’outil gratuitement pendant 1 mois.

vizzboard-datavisualisationCrédit photo : Flickr /Teymur Madjderey /« this is not a… »