Articles

L’ADETEM a organisé le 15 novembre 2017 une journée sur l’intelligence artificielle et le marketing. L’intelligence artificielle est le buzzword de cette année 2017. Cette journée était l’occasion pour les marketeurs de se demander dans quelle mesure l’intelligence artificielle va bouleverser la façon de faire du marketing. Si vous n’avez pas pu venir, voici un petit résumé de cette journée qui fut passionnante.

Le début de la 4ème révolution industrielle ?

L’intelligence artificielle est considérée par certains comme un des piliers d’une 4ème révolution industrielle. C’est ce qu’a rappelé Jean-Philippe Desbiolles, vice-président IBM-Watson. L’intelligence artificielle ne serai seulement un nouvel outil mais un des éléments de cette 4ème révolution. Même si l’intelligence artificielle n’est pas complètement nouvelle, nous n’en sommes qu’au début.

L’intelligence artificielle est devenue possible grâce à conjonction de plusieurs facteurs: l’explosion des données liées à l’activité humaine et la capacité d’analyse de ces données. Pour autant, si les données produites sont aujourd’hui nombreuses, les entreprises ont encore des difficultés à les organiser pour les exploiter. Julien Levy, directeur de la chaire AXA Big Data parle d’un gâchis de données.

Après s’être beaucoup intéressé aux données structurées, l’intelligence artificielle s’attaque désormais à l’analyse des données non structurées:  le langage, le texte, le son, les images, les vidéos. Ainsi, l’intelligence artificielle comprend de mieux en mieux l’intention dans une phrase, et pas seulement les keywords.

Le paradoxe de l’intelligence artificielle est qu’elle fascine tout autant qu’elle n’inquiète. Parfois elle nous est présentée comme un miracle qui révolutionne déjà la médecine, la police ou la recherche d’emploi. D’un autre côté, son impact est aussi présenté comme menaçant. Il ne passe pas une semaine sans qu’un article ne sorte avec un titre accrocheur du type « les robots vont voler 50% des emplois d’ici 2025 » (c’est souvent très précis en plus).

Les enjeux actuels de l’intelligence artificielle

Julien Levy identifie 5 enjeux auxquels les entreprises doivent faire face avec l’intelligence artificielle:

  1. Une connaissance beaucoup plus étendue et fine des clients.
  2. Une relation clients automatisée qui n’écarte pas l’empathie: Cette mission pourrait être réalisée par des chat bots. Est ce que les gens auront conscience de parler à une machine ? Julien Levy pense qu’on aura les 2 types de chat bots: parfois on essaiera de tromper l’individu car l’empathie reste clé dans une démarche commerciale.
  3. L’automatisation du marketing quantitatif et le renforcement d’un marketing créatif : L’intelligence artificielle est particulièrement bien conçue pour se substituer aux spécialistes opérateurs du marketing quantitatif. Mais du coup, le rôle des être humains sera plus important en termes de stratégie et de créativité. Il faudra se montrer créatif dans l’utilisation de l’intelligence artificielle.
  4. La guerre des talents: les spécialistes de l’IA touchent des salaires astronomiques. De plus, certains préfèrent lancer leur propre projet entrepreneurial ce qui renforce encore le manque de talents pour les entreprises.
  5. Savoir gérer un projet data et IA: L’intelligence artificielle est un des éléments de la transformation digitale des entreprises.

L’IA dans le marketing, c’est maintenant

Cette journée a été l’occasion de parler de nombreux cas d’applications de l’intelligence artificielle dans le marketing. Plusieurs start-ups sont venues également présenter leurs offres basés sur l’intelligence artificielle.

Jean-Philippe Desbiolles, Vice-président IBM-Watson, a partagé un de leur projet pour une banque. IBM Watson ont un outil pour générer le profil de personnalité d’un individu à partir de 3000 mots écrits par cette personne. Ils ont appliqué cette analyse aux clients, aux prospects et au personnel de la banque. Cela leur a permis  d’identifier le niveau d’adéquation entre les clients/prospects et le personnel. Cette même analyse a été appliquée aux documents financiers pour valider un alignement entre les valeurs du clients et les valeurs de l’investissement par exemple. Ils se sont aperçus qu’ils devaient encore aller plus loin en profilant les clients avec des données publiques pour créer un score d’influence. Un client de taille moyenne pouvait en effet avoir un score d’influence élevé. On voit là encore l’importance grandissante de données plus qualitatives.

Frédéric Cavazza a rappelé que de nombreux outils basés sur l’intelligence artificielle existent déjà pour les marketeurs. Il existe des outils pour analyser l’audience et générer des segmentation, des outils de scoring et de ciblage qui permettent d’identifier par exemple les clients qui risquent de résilier un abonnement, des outils de recommandation, des outils de création de contenus, etc … Le choix est multiple et permet d’optimiser rapidement sa performance.

La start-up Synomia a développé un nouvel outil qui permet de visualiser les données de l’entreprise et les données externes provenant des réseaux sociaux sur une même interface. La start-up AlloMedia permet d’analyser les appels téléphoniques de clients et de relier ces appels avec ses données de navigation. Cela permet de prendre en compte une donnée précieuse qui ne l’était pas auparavant. La start-up Q°emotion s’intéresse à la détection des émotions dans les avis clients.

La fin du marketing, vive l’humain ?

Et si l’intelligence artificielle parvenait à aller tellement loin que tout sera automatisé ? Stéphane Mallard, Digital Evangelist, répond que l’enjeu n’est pas seulement de tout automatiser. On oublie que les consommateurs vont s’adapter face à cette intelligence artificielle qui sera utilisée par les marketeurs. Certains entrepreneurs répondent à ce besoin de contrôle par les utilisateurs. On peut citer les adblockers et les comparateurs de prix comme exemple. On peut alors supposer que plus le client sera informé, moins le marketing aura d’influence sur lui.

En revanche, Stéphane Mallard pense que c’est la diffusion rapide des produits et services de valeur qui va s’exacerber. L’information circule plus vite. Ce qui sera adapté à son environnement sera alors largement diffusé. Est-ce qu’il restera tout de même une petit place pour une course infinie entre le marketing et les consommateurs ?

Au final, il ne faut donc pas perdre de vue qu’au delà de l’intelligence artificielle, les consommateurs ont besoin de produits ou de services avec de la valeur. Amazon a une relation client exceptionnelle et cela n’a rien à voir avec l’intelligence artificielle. Et demain, ce qui fera la différence sera peut-être aussi l’empathie de la relation. Nous continuerons sûrement à aller chez le médecin pour son empathie même si l’intelligence artificielle détecte mieux les maladies que lui.

La social data a donc le droit à un V supplémentaire: la Visibilité. Ces données générées par les utilisateurs sont en effet visibles. On pourrait croire que cette donnée est facile à recueillir et quasi gratuitement. Ce n’est pas le cas.

Des données en partie privées

En réalité, seule une partie de la social data est visible par tous.

  • Certains réseaux sociaux sont publiques: c’est le cas de Twitter, Instagram, Flickr, Youtube.  Les publications sont accessibles à tous.
  • D’autres réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités sont bien publics.
  • Les conversations des utilisateurs sur les applications de messagerie comme Googlehangout, Messenger, Whatsapp, Wechat sont privées. Elles ne peuvent pas être analysées par un tiers.
  • Les discussions sur les forums peuvent être publiques ou privées.

L’ensemble des contenus et discussions par les utilisateurs sur les réseaux sociaux ou les forums ne sont donc pas visibles. Seules les données visibles peuvent être collectées pour être analysées. Collecter les données privées est illégal et relève du hacking de données.

Le scraping de données

De nombreuses données sont visibles sur internet. Avant de les analyser, encore faut-il les collecter. Plusieurs options sont possibles.

Il est parfois possible de recueillir les données via une API. C’est le cas par exemple des réseaux sociaux comme Twitter ou Facebook. Dans le cas de Twitter, leur APIs était plutôt ouverte il y a quelques années. Mais cela est désormais quasiment terminé. L’API publique de Twitter permet de récolter quelques milliers de tweets par jour, et vous n’avez pas accès à l’historique des tweets. Depuis que Twitter a racheté la société GNIP en 2015, il faut passer ce fournisseur de données pour récupérer les tweets, ainsi que l’historique des tweets. Et bien sûr, ce service est payant.

Quand cela n’est pas possible, les données d’un site web peut être recueillies en utilisant des techniques de scraping. Selon la définition Wikipédia, le web scraping (parfois appelé harvesting) est une “technique d’extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte”. C’est un peu comme si on faisait du copier-coller du contenu d’une page, sauf que le scraping est réalisé par un robot qui s’en occupe.

Il faut donc coder ces robots. L’écriture de ces programmes est réalisée par des développeurs. Cette première étape nécessite donc des compétences techniques spécifiques d’écriture de scripts. Ces programmes doivent être adaptés en fonction des sources crawlées. Par exemple, le programmeur qui veut scraper des commentaires Youtube doit indiquer dans son programme quels éléments il veut extraire (le titre de la vidéo, l’auteur de la vidéo, la date de la vidéo, le contenu du commentaire, la date du commentaire, le pseudo de l’auteur du commentaire). Il doit indiquer également au programme de cliquer sur la petite flèche pour faire défiler plus de commentaires, et y avoir accès. Il doit en effet reproduire le comportement humain, ou du moins ses clics.

L’auteur du script doit donc comprendre la structure du site web et de la base de données. Ainsi, “la vraie difficulté du scraping consiste à traiter les bonnes pages et les bons éléments au sein de ces pages pour extraire les informations désirées”. Ce travail doit être fait pour chaque site web, chaque plateforme. Le programme doit être mis à jour quand la structure du site web change.

Une fois que le programme a été écrit, les robots vont scraper le contenu. Cette étape n’est pas instantanée, elle peut prendre plusieurs heures, jours ou semaines en fonction de la quantité de données à recueillir.

Dans tous les cas, l’étape de recueil de données sociales est une étape qui nécessite du temps et de l’argent. La social data est certes visible mais elle ne se laisse pas cueillir si facilement.

Je vous ai parlé dans un précédent article de ce qu’était la social data. Je vais maintenant vous parler des caractéristiques de la social data avec ses 6V. Ce n’est pas une erreur de frappe, la social data a gagné un grand V en plus de la big data. Parce qu’elle le vaut bien.

La social data répond aux critères des 5V de la big data: Volume, Vitesse, Variété, Valeur, Véracité. Elle a une spécificité en plus: la Visibilité. La social data est une donnée visible par nous tous sur les réseaux sociaux, les blogs et les forums.

201703-social-data-6V

Volume et Vitesse: une symphonie sans fin.

La social data est de la donnée générée par les utilisateurs de façon spontanée. Nous sommes face à une explosion de cette donnée. Avec le digital et la multiplication des supports (ordinateurs, téléphones, tablettes, objets connectés), les internautes se connectent partout. Ils donnent leur avis sur les produits qu’ils achètent, les lieux qu’ils fréquentent, les restaurants, les hôtels, les monuments, les taxis. Ils en discutent sur les réseaux sociaux comme Facebook ou sur des forums spécialisés. Ils commentent le contenu généré par les marques sur Youtube ou Instagram. Et gare aux serveurs désagréables dans les cafés, leurs prestations ont maintenant un lieu de plainte: Tripadvisor (non non, je ne vise aucune ville en particulier quand je parle de la serviabilité de ses serveurs).

Et tout ça, ça fait beaucoup. Chaque jour, ce sont des millions de likes qui sont distribués, des millions de tweets qui sont écrits et retweetés. Les discussions ne s’arrêtent jamais sur le web, la conversation est permanente. La social data se remplit de ces conversations, commentaires, likes et dislikes, pouces en l’air et pouces en bas, et même de tous ces petits émojis et autre gifs.

La variété de la social data: une donnée protéiforme.

Les données générées par les utilisateurs sont diverses. La social data provient de différentes sources comme les médias sociaux, les blogs, les commentaires, les terminaux mobiles, les tablettes numériques, les objets connectés. Cette donnée prend de multiples formes. La social data est majoritairement du texte (toutes les langues, avec abréviations et émoticônes). Cela peut aussi être des images (Facebook, Instagram), des vidéos (Youtube). Et toutes ces données ne sont pas du tout structurées (oui, c’est plus fun comme ça).

La véracité: ah oui, vraiment ?

La véracité de la social data est souvent questionnée. J’entends parfois l’idée que ce qui se dit sur internet est faux, ou du moins en grande partie. Il ne servirait donc à rien d’analyser des avis et opinions qui n’expriment aucune réalité. Ce sont souvent les avis consommateurs qui sont pointés du doigt. Ce jugement est un peu rapide dans l’absolu. De plus, il occulte également l’impact de la social data sur les internautes qui lui est bien réel.

Oui, il existe un business de création de faux avis. Oui, certains avis proviennent des propriétaires eux-mêmes. Oui, certains avis peuvent être émis par des personnes et concurrents malveillants. La plus grosse plateforme d’avis touristiques Tripadvisor est régulièrement critiquée pour le manque de vérification des avis publiés.

Pour autant, l’ensemble de la social data n’est pas qu’un mensonge. Les millions de commentaires ajoutés sur les forums chaque jour ne sont pas générés par des entreprises spécialisées dans les faux commentaires en Asie. Les millions d’avis produits non plus et encore moins les blogs. Sur les sites comme Airbnb ou BlablaCar, seules les personnes ayant réellement utilisé le service peuvent émettre un avis. Cela limite fortement les fraudes. Sur la plateforme Amazon, certains avis sont estampillés “achat vérifié”. Et de façon plus générale, les avis seront de plus en plus certifiés par les plateformes elles-mêmes ce qui devrait contribuer à limiter les faux avis clients. Les vrais et faux commentaires existent et se côtoient. Malgré ce biais, l’analyse de la social data apparaît comme incontournable dans la mesure où elle a un impact sur les consommateurs.

En Chine, le développement du e-commerce s’est accompagné également d’une explosion du nombre de commentaires sur les produits. En traquant les commentaires sur neuf sites de commerce électronique en Chine, Kantar Media CIC a constaté que 70 % du buzz de certaines marques provenait uniquement d’avis utilisateurs.

Le bouche-à-oreille a toujours eu un impact plus fort sur nos prises de décisions, et ce bouche-à-oreille s’est industrialisé avec les plateformes d’avis et les sites de e-commerce. Il serait donc dommage de ne pas y tendre l’oreille car les consommateurs, eux, le font.

La valeur: le grand défi.

La valeur de la big data, c’est le graal que tout le monde recherche. On sait que la valeur est là quelque part, le souci est de la faire émerger, de la comprendre et de l’utiliser. Là ça devient autre chose. La social data n’échappe pas à cet impératif.

La difficulté de la social data, c’est sa nature même. C’est une donnée non structurée, principalement du texte, et également des images et des vidéos. Et ça, les algorithmes ont encore parfois du mal à comprendre ce que les humains racontent et à distinguer un chat d’un chien. Nous en sommes au début de l’analyse de la social data qui va se développer avec la précision des algorithmes.

La visibilité: la social data, si proche de nous.

Pour finir, la social data a une autre particularité. Elle est en grande partie visible.

  • Certains réseaux sociaux fonctionnent majoritairement en mode privé. La plupart des profils Facebook ne sont pas publics. En revanche, les commentaires publiés sur les pages de marques, de journaux ou de personnalités le sont.
  • Certains réseaux sociaux sont publics: c’est le cas de Twitter, Instagram, Flickr, Youtube. Les publications sont accessibles à tous, ainsi que les commentaires.
  • Les discussions sur les forums peuvent être publiques ou privées.

Nous verrons prochainement comment ces caractéristiques génèrent un certain nombre de mythes autour de la social data.

Deux enseignants chercheurs de l’Ecole Supérieur d’Ingénieurs de Léonard de Vinci (ESILV) sont venus parler de leurs travaux sur l’utilisation du big data appliqué au secteur du tourisme dans le cadre des conférences Person of Interest. Gaël Chareyron travaille sur les liens entre réseaux sociaux, big data et tourisme en développant des outils d’analyse et de data mining. Les thèmes de recherche de Jérôme Da-Rugna sont le big data et le traitement des images. Ils collaborent avec l’équipe interdisciplinaire de recherches sur le tourisme (EIREST) de l’Université de Paris 1 Panthéon-Sorbonne.

J’ai trouvé cette conférence intéressante car on parle beaucoup de big data et de l’énorme potentiel des millions de données, mais cela reste bien souvent très théorique. Les deux chercheurs expliquent leurs pistes d’exploration de l’utilisation de la big data avec de multiples exemples concrets.

Quelles sont les données actuellement disponibles pour comprendre un secteur comme le tourisme ? Les statistiques sont une première source d’information (données de fréquentation des gares, des aéroports, données issues des douanes) . Ce sont des données éparpillées. Une étape de recherche, d’analyse et de synthèse sont nécessaires pour les exploiter. Les études de marché sont une autre source d’information. Mais une étude de marché concerne souvent une problématique à un moment précis et les résultats d’études ne sont forcément librement partagés.

Utiliser les données des réseaux sociaux pour analyser le tourisme ?

Que pourrait-on savoir en exploitant les données disponibles sur internet ? Serait-il possible de savoir comment les gens circulent ? Comment ils sont venus sur ce lieu ? Ce qui les a motivé ? Si ils sont satisfaits ? C’est ce que cette équipe de chercheurs tente de faire.

Leurs sources de données sont diverses. Ils utilisent les réseaux sociaux Instagram, ainsi que les sites de photos comme flickr ou Panoramio. La plateforme d’avis Tripadvisor est bien évidemment une mine d’or. Et il est souvent possible de savoir quand et où une photo a été prise, et parfois par qui (sexe, âge, pays d’origine). En effet, l’intérêt ne réside pas seulement dans le contenu de ce qui est publié (la photo, le commentaire) mais également dans les méta-données qui l’accompagnent. L’équipe de chercheurs travaille également sur l’utilisation des données provenant d’autres sites comme Airbnb ou hotels.com.

Des exemples concrets d’utilisation de la data

Connaître le profil des touristes

La Suisse publie des statistiques précises de visite de chaque canton (nombre de touristes, pays d’origine, date). En utilisant les données issues de flickr, les chercheurs de l’ESILV ont réussi à obtenir des résultats corrélés à ces statistiques officielles. Ils ont ainsi pu identifier les zones fréquentées par les touristes français, par les allemands et les anglo-saxons.

Ils ont également mené ce genre d’analyse sur la France avec les données de Tripadvisor. Connaître la nationalité des personnes qui postent sur les réseaux permet ainsi d’identifier leur profil. Il est donc possible de faire ce genre d’analyse en fonction d’autres critères qui sont comme l’âge par exemple. Si vous vous demandez où vont les jeunes en vacances, les familles avec enfants ou les séniors, les réseaux sociaux sont une véritable source d’insights.

Comprendre les parcours de visite à Paris

En analysant la densité des photos sur Paris, ils ont pu identifier les zones les plus touristiques de la ville. Bien sûr, on retrouve la Tour Eiffel, les Champs Elysées, le centre historique de Paris. Mais en allant un peu loin, ils ont pu constater que la zone de la Tour Eiffel ne ressemblait pas à celle des Champs Elysées. Les touristes restent sur les Champs Elysées et s’aventurent assez peu autour de l’avenue. En revanche, ce n’est pas le cas autour de la Tour Eiffel. Il y a beaucoup plus de diffusion autour de ce site, les touristes s’aventurent sur une zone plus large aux alentours de la Tour Eiffel.

Connaître le parcours de visite d’un site touristique

L’équipe de chercheurs a également fait des analyses sur des zones beaucoup plus réduites. Ils ont utilisé les traces laissées par 5000 utilisateurs sur le parc du château de Versailles. En effet, les visiteurs font des photos lorsqu’ils visitent le parc et les postent sur Flickr et Instragram. Ils ont pu constater que de nombreux visiteurs suivent le chemin proposé par la brochure, surtout les touristes étrangers. Les visiteurs français ont eux plus tendance à déambuler dans le parc sans suivre le plan proposé par la brochure. Cela confirmerait-il que les Français ont une tendance à chercher de meilleures solutions que celles proposées de prime abord (une façon gentille de dire qu’ils sont un peu rebelles) ? Je ne sais pas, les chercheurs ne se sont pas aventurés à une explication sur ce point.

Une histoire qui ne fait que commencer

Les chercheurs donnent de nombreux autres exemples : l’analyse de ce qui se mange à Barcelone via les photos de repas sur Instagram, l’analyse des flux de circulation des touristes en Ile de France, la visite des lieux de mémoire, l’analyse des récits de la visite du Mont Saint Michel, l’analyse de la saisonnalité du tourisme à Paris.

Tous ces exemples montrent le potentiel encore inexploité de l’utilisation de la donnée dans la compréhension du consommateur et des clients. Nous n’en sommes qu’au début !

Si vous voulez voir la conférence en entier, elle est disponible sur youtube.

Je voudrais vous parler d’un MOOC très intéressant qui m’a été recommandé lors de mon entrée en Executive Master Data Strategy à MediaSchool. Le MOOC en question est disponible sur la plateforme OpenClassRooms. Il s’intitule Comprendre le Big Data à travers les films de cinéma. Comme il est parfois difficile de s’y retrouver dans l’offre de MOOC, je partage mon expérience.

Ce MOOC a été réalisé en collaboration avec des écoles d’ingénieurs prestigieuses (ENSAE ParisTech et ENSAE-ENSAI) ce qui est déjà un beau gage de qualité. Les deux orateurs du MOOC sont Guy Jacquemelle et Xavier Perret, co-auteurs du livre « Big data: Le Cinéma avait déjà tout imaginé » (éditions Kawa). Cependant il ne faudrait pas croire que ce MOOC ne s’adresse qu’aux ingénieurs, mathématiciens ou informaticiens. Si vous êtes dans le marketing comme quoi et que vous souhaitez avoir un cours pour mettre un peu d’ordre dans tout ce que vous avez déjà lu sur les données, la big data, la smart data, ce MOOC est fait pour vous.

instant-digital-ENSAE-ENSAI

Et si comme moi vous adorez les films de science fiction, n’hésitez plus, ce MOOC va vous plaire. Cependant, il n’est pas nécessaire d’être un fan de films de science fiction pour suivre. En effet, le parallèle entre le film de science fiction et le concept étudié sera toujours expliqué dans la vidéo. Si vous n’êtes pas fan de science fiction, vous pouvez donc y aller … et qui sait, cela vous donnera peut-être envie de découvrir certains classiques de la SF.

Ce que vous allez apprendre

Le MOOC m’a permis de structurer ce que j’avais déjà lu sur le big data et de retrouver une définition claire de nombreux concepts liés au big data (machine learning, intelligence artificielle, algorithme de recommandation, …). Le MOOC est divisé en 4 parties.

La première partie est la partie introductive qui rappelle ce qu’est le big data. La deuxième partie parle de prévision.  L’enjeu avec la big data n’est plus seulement de savoir ce que vous faites et aimez mais bien de prévoir ce que vous allez faire et aimer avant même que vous n’ayez demandé quoi que ce soit. Les concepts de overfitting (surapprentissage) et underfitting (sous-apprentissage) sont également abordés pour parler des possibles erreurs de prédiction. Il est également rappelé qu’une corrélation ne reflète pas toujours une relation de causalité. Enfin, si vous voulez comprendre un algorithme de recommandation comme celui de Netflix, le MOOC vous explique comment cela fonctionne. La troisième partie approfondit le fonctionnement des algorithmes: comment les algorithmes apprennent (machine learning). Vous y apprendrez l’origine de l’intelligence artificielle, et que l’IA est déjà parmi nous: nous nous en servons déjà tous les jours. La dernière partie s’interroge sur les risques et dérives possibles du big data.

Mon avis sur OpenClassrooms

La plateforme OpenClassrooms vous permettra d’accéder gratuitement à ses cours … dans la limite de 5 cours par semaine. Si vous n’êtes pas pressé, vous n’avez donc pas besoin de payer. Mais si vous voulez allé plus vite, être certifié ou télécharger les vidéos des cours, il vous faudra payer l’abonnement (à partir de 20€ par mois).

Attention tout de même quand vous vous inscrivez sur la plateforme: il s’agit d’un abonnement. Votre compte bancaire sera prélevé de 20€ tous les mois de façon automatique sauf si vous faites une demande à OpenClassrooms d’arrêt d’abonnement. Je me suis désabonnée sans souci quand je n’avais plus besoin d’accéder aux cours, cela se fait directement en ligne sur le site et mon abonnement s’est donc terminé à la fin du mois qui avait été payé. Le site de OpenClassrooms est donc un site clair, simple à utiliser et transparent sur ses tarifs et son fonctionnement.

Si vous êtes demandeur d’emploi, c’est gratuit. Grâce à un partenariat avec Pôle Emploi, les demandeurs d’emploi ont un accès Premium Solo gratuitement.

Les forums Doctissimo sont un lieu de discussion pour des milliers d’internautes. Il s’agit de la plus grande communauté francophone sur internet. Les doctinautes y trouvent un lieu pour échanger sur leurs maladies. Les femmes échangent sur leurs soucis quotidiens. Souvent, elles découvrent Doctissimo lors de leur première grossesse lorsqu’elles sont le plus à l’affut d’informations et qu’elle ressentent le besoin de parler avec d’autres femmes enceintes.

Le site dispose donc de données conséquentes et rares sur ses audiences. Les doctinautes fournissent des informations de façon déclarative mais également en discutant sur les forums. Outre les données socio-démographiques classiques, il est possible de suivre l’évolution de la composition du foyer, leurs habitudes de consommation, leurs hobbies et également leurs pathologies.

30 000 messages par jour

Comment valoriser ces données ? Lucia Lagarrigue, directrice des communautés de Doctissimo et Gilles Achache de Scan-Research sont venus parler de leur collaboration lors de la conférence Adetem du Club des Etudes de juin 2016.

Les insights sont potentiellement nombreux en analysant le contenu. Alors comment analyser des millions de message spontanés et 30 000 nouveaux messages par jour ? C’est sur ce constat que la société Scan Research a été fondée il y a 5 ans par Gilles Achache qui a développé un outil permettant le suivi quotidien du contenu des forums.

L’analyse se déroule en 2 temps. Les messages et leurs méta-données sont extraits en tapant des mots clés dans l’outil. Cette première étape permet aussi d’identifier les influenceurs du thème. Ce contenu est ensuite analysé via une grille d’analyse. La grille est réalisée par les équipes de Scan Research. Le programme d’analyse linguistique va pouvoir classer chaque message en suivant cette grille. Les programmes d’analyse linguistiques permettent aujourd’hui d’identifier que les verbatims comme « c’est trop cher », « je ne peux pas me le payer » ou « ça coûte une blinde » correspondent tous à l’idée que le produit est trop cher.

Les données sont au final restituées sur des dashboards accessibles en ligne. Il est possible de retrouver chaque verbatim qui a servi à faire l’analyse globale.

Un outil d’analyse pour la régie de Doctissimo

La régie de Doctissimo est ainsi en mesure de fournir un service supplémentaire aux annonceurs avec un meilleur ciblage et une meilleure adéquation des messages à la cible. Les opérations spéciales peuvent bénéficier d’un niveau d’affinité supplémentaire. La régie propose des études de marché en plus de la vente de l’espace publicitaire. L’analyse des forums permet à la rédaction d’adapter son contenu aux sujets identifiés dans les forums.

Il est également possible d’analyser l’impact des bannières publicitaires des annonceurs sur le contenu des forums. Cela complète les mesures quantitatives classiques de performance comme le nombre d’impression ou le taux de clics d’une bannière. Il est ainsi possible de savoir si les bannières ont généré plus de conversations et si le contenu est en phase avec les objectifs publicitaires. C’est donc un impact plus qualitatif sur les échanges des doctinautes qui est identifié. On peut dire qu’ainsi la boucle est bouclée.

La data c’est le fameux or noir du 21ème siècle. Elle est partout à tel point qu’on l’appelle « big data ». Encore faut-il que nous puissions prendre connaissance de cette data. C’est tout l’enjeu de la datavisualisation. J’ai rencontré Marjolaine Baratte, directrice marketing de la start-up française Vizzboard qui m’a parlé des avantages de la datavisualisation.

La data visualisation, c’est quoi ?

Les outils de datavisualisation permettent de créer des tableaux de bords qui vont permettent aux entreprises de piloter leur entreprise. Il s’agit de tableaux de bords agiles, qui peuvent être modifié en fonction des besoins de chaque entreprise ou de chaque personne au sein d’une même entreprise.

Ces outils ne s’adressent pas seulement aux grosses entreprises qui ont des milliers de clients, 300 boutiques et 10 sites internet. Les PME aussi sont concernées par l’explosion des données et ont besoin d’outils simples pour les visualiser. La data visualisation permet à toutes les entreprises de lire leurs données sans avoir besoin de statisticiens.

C’est bientôt la fin des rapports powerpoint basés sur des graphs excel remplis de liens qui avaient le don de se mettre à jour quand ils le souhaitaient (ou pas). Les données disponibles sont devenus trop complexes et trop nombreuses pour être gérées avec ces outils trop statiques et peu souples.

Les outils de data visualisation sont donc des outils d’aide à la décision qui permettent aux entreprises d’accéder et de lire leurs données de façon plus simple, plus claire et plus agile. Il ne faut pas confondre la data visualisation avec l’infographie qui est une présentation visuelle de données à un moment donné. Les infographies sont des images utilisées pour faciliter la compréhension d’un phénomène et sont souvent utilisées à des fins de communication.

Vizzboard, pour créer facilement des tableaux de bord intuitifs et partagés

Vizzboard a été créée en juin 2014 par François Cuillé et Olav Snoek et propose un outil 100% web, en mode SaaS. Les avantages de Vizzboard sont multiples.

  • Simplicité: une prise en main rapide grâce à un outil intuitif. Pour s’en rendre compte, il est possible sur leur site de faire un test gratuitement en téléchargeant son propre jeu de données (ou d’utiliser leur propre exemple).
  • Collaboratif: la possibilité de partager les tableaux de bords avec ses équipes, ses collaborateurs, sa hiérarchie, ses clients (avec des droits de modification ou seulement en lecture seule).
  • Interactivité des données et des rapports: il suffit de cliquer sur un pays, un vendeur, une zone pour que l’ensemble du tableau de bord se mette à jour automatiquement, sans effort.
  • Mobilité: les données sont stockées sur le cloud, l’outil est donc utilisable quel que soit l’endroit où vous êtes.
  • Autonomie: les équipes qui exploitent les données sont autonomes dans la création de tableaux de bords et leur mise à jour.
  • Gain de temps: un gain de temps pour lire les données et donc pour prendre des décisions.
  • Coût: 30€ par mois par utilisateur.

Vous pouvez tester l’outil gratuitement pendant 1 mois.

vizzboard-datavisualisationCrédit photo : Flickr /Teymur Madjderey /« this is not a… »

Hervé Pépin, responsable de l’atelier mobilité et media sociaux du Sncd et président de Nexize est venu présenter les nouvelles règles du jeu sur les réseaux sociaux lors du salon e-commerce paris 2015 qui s’est déroulé du 21 au 23 septembre 2015 à Paris. L’occasion de rappeler quelques chiffres clés sur les réseaux sociaux, de parler de la puissance du réseau social Facebook, de l’importance d’avoir son application ou pas, de l’emailing et d’un peu de data.

Le mobile et les réseaux sociaux.

Les derniers chiffres issus du baromètre annuel des usages des internautes de la SNCD montrent à quel point la consommation de contenu a irrémédiablement changé avec internet et surtout avec la place de plus en plus grande du mobile. La grande majorité des français a accès à internet: 55 millions d’internautes sur une population totale de 66 millions d’habitants. Et c’est désormais le mobile qui est devenu le premier moyen d’accès à internet.

Et que font les mobinautes sur leur téléphone ? Ils vont sur Facebook. A lui seul, le réseau social représente 20% du temps passé sur les applications mobiles. Facebook déclare aujourd’hui 1,49 milliards d’utilisateurs actifs et quasiment 1 milliard d’utilisateurs quotidiens. 655 millions ne se connectent que sur mobile. Avec 1,8 millions de like par minute, Facebook est devenu un carrefour d’audience massif pour les marques qui représente à lui seul plus de 7% de dépenses publicitaires sur internet.

La palette d’outils mis à disposition par Facebook pour les marketeurs s’élargit de plus en plus. Il est possible de générer plus d’engagement sur les publications des marques (car sans investissement publicitaire, le taux de reach est faible et les fans ne voient tout simplement pas le post de la marque). Il est désormais possible de cibler des populations spécifiques, de travailler sur le téléchargement d’une application, de promouvoir une entreprise au niveau local.

Le paradoxe pointé par Hervé Pépin est que Facebook a désormais une meilleur connaissance client que les marques elle-mêmes, et que cela risque de s’amplifier. En tant que plateforme publicitaire, Facebook a tout intérêt à développer le temps passé sur son site et son application. Les marques doivent donc apprendre à utiliser les réseaux sociaux comme une source supplémentaire de connaissance client en  exportant une partie de la data disponible sur facebook versus leur propre base de donnée client.

Brand content: responsive et social.

En 2015, Google a changé son algorithme pour favoriser les sites responsive c’est-à-dire ceux qui s’adaptent aux mobiles. Pourtant, en France, 64% des sites ne sont pas adaptés au mobile selon le panel yooda (avril 2015). Ces sites sont donc pénalisés par l’algorithme de référencement Google.

Les sites de marques doivent donc proposer un expérience adaptée au mobile et leur contenu doit renvoyer vers les réseaux sociaux. Il est important pour les marques de pouvoir comprendre et identifier les internautes qui partagent leur contenu et pour quelles raisons. Là encore, cette connaissance des ambassadeurs d’une marque ne doit pas être laissée aux réseaux sociaux.

Une application pour ma marque: pas forcément.

Si on assiste bien à une explosion de la part du mobile dans les usages, on pourrait croire que le développement d’une application mobile pour les marques soit la nouvelle priorité. Si l’application d’une marque ne fournit pas un service différent de celui offert par le site, elle aura du mal à émerger et à rentrer dans les habitudes d’utilisations des mobinautes. Hervé Pépin rappelle également qu’il faut que la marque ait les moyens de promouvoir fortement l’application afin d’être visible et donc téléchargée. L’application mobile reste encore optionnelle en 2015.

L’email: toujours là.

L’email demeure un canal d’actualité efficace dans un programme relationnel avec un ROI élevé. L’emailing devient plus automatisé et plus personnalisé. Il doit bien sûr être responsive pour que la consultation sur mobile procure une expérience positive. Et sa performance doit être analysée.

La data, pour comprendre.

Au final, les marketeurs ont à leur disposition de nouvelles sources de compréhension et de connaissance de leurs clients qu’il faut intégrer à leur propre base de donnée marketing et à leur segmentation client. Qui sont leur fans ? Leurs clients sont-ils tous fans de leur marque ? Qui sont les fans influents ? Il est urgent de prendre le contrôle de la data afin de garder la maîtrise de sa connaissance client selon Hervé Pépin.

Retrouvez le support de cette présentation sur slideshare.

Crédit photo : Unsplash

Paul Duan, fondateur de l’ONG Bayes Impact est venu parler de sa foi en l’algorithme lors de la seconde édition de L’Echappée Volée le 6 juin 2015, un événement organisé par TEDxParis au château de Chambord. Cet événement a permis aux 6 lauréats sélectionnés de venir présenter leur projets mais également à d’autres intervenants de parler de leur « renaissance digitale ».

Paul Duan se demande tout simplement comment 10 personnes peuvent sauver la vie de 10 millions ? Pour lui, la réponse se trouve dans la science des données qu’on appelle souvent big data. Selon lui, la big data ne doit pas seulement permettre aux abonnés Netflix de savoir quel épisode de House of Cards ils doivent regarder. Il serait également dommage que la big data ne serve qu’à l’optimisation des investissements des fonds spéculatifs.

Son ambition est la suivante: utiliser les mêmes techniques qui font la fortune des industries privées pour résoudre des problèmes sociaux.

Optimiser la réparition des ambulances comme le fait Uber avec ses taxis

La société Uber utilise les millions de données recueillies sur chaque passager, ses requêtes et ses trajets pour prédire à l’avance à quel endroit de nouvelles commandes sont le plus susceptibles d’arriver. Ces algorithmes prédictifs permettent ainsi à Uber d’optimiser le dispatch de leurs véhicules et donc de faire des économies substantielles. Paul Duan propose de faire la même chose pour les services ambulanciers alors que des millions de personnes meurent en attendant une ambulance chaque année. Il serait possible d’utiliser les données pour optimiser le dispatch des ambulances et de sauver ainsi des vies tout en faisant des économies.

Optimiser la rencontre employeur/employé comme le fait Meetic

Des algorithmes de matching sont aujourd’hui utilisés par des sites de rencontres comme Meetic ou Tinder. Ils permettent de recommander à des célibataires des personnes avec les plus fortes probabilités de compatibilité. Paul Duan pense que l’utilisation de ce genre d’algorithme de matching pour des agences comme Pôle Emploi pourrait permettre d’optimiser le matching entre employeurs et chercheurs d’emploi. Et si grâce aux algorithmes il était possible de réduire le chômage en France tout en faisant des économies de fonctionnement d’une énorme structure comme Pôle Emploi ? Une promesse alléchante en cette période de chômage et de déficits budgétaires.

Retour à la réalité … et la conduite du changement

Il suffirait donc d’avoir quelques bons analystes pour mettre en place des outils d’optimisation basés sur la big data ? Evidemment les choses ne seront pas aussi simple. Paul Duan rappelle avec beaucoup d’humour qu’il ne suffira pas d’une bande de volontaires à mi-temps et de quelques hackatons pour changer Pôle Emploi. Il rappelle la nécessite de travailler en profondeur et de bien connaître les institutions culturellement différentes pour pouvoir les accompagner de façon efficace vers plus de modernisation.

L’ONG Bayes Impact travaille actuellement sur un logiciel open source de prédiction du risque de réadmission à l’hôpital, qui coûte plus de 40 milliards de dollars par an aux hôpitaux américains. Grâce à leurs algorithmes, ils seront alors capables d’identifier les personnes à risque, de les traiter à l’avance pour éviter une réadmission et sauver ainsi ces malades. Il estime qu’ils pourrait sauver 3 millions d’années de vie humaine par an avec cet algorithme et ce n’est que le début d’après lui.

Pourquoi Paul Duan veut faire tout ça ? Il dit que ça en vaut le coût, tout simplement. J’espère qu’il dit vrai.

Crédit photo : Flickr / Do-Hyun Kim / lego custom IRON MAN

Le big data est devenu le nouvel or noir du marketing : grâce aux énormes quantités de données disponibles, les entreprises vont pouvoir tout connaître de leurs clients, ce qu’ils font, ce qu’ils mangent, ce qu’ils pensent, ce qu’ils cachent, et même ce qu’ils vont faire alors qu’ils ne l’ont pas encore vraiment décidé.

Dans les faits, ce n’est pas aussi simple que cela en a l’air car il faut savoir traiter et analyser ces énormes masses de données. Et avant cela, il faut commencer par structurer l’ensemble des données d’une entreprise pour qu’elles puissent communiquer entre elles, ce qui  est rarement le cas dans les faits.

La simple gestion des stocks d’une entreprise est complexe entre les stocks de son entrepôt, les stocks de ses magasins et les stocks de son site de e-commerce. Alors quand on doit rajouter les données sur les consommateurs, les données des cartes de fidélité, les données d’achats de milliers d’acheteurs, les commentaires de ses clients sur les réseaux sociaux, les données sur les vendeurs ou sur la flotte des véhicules, les données provenant du service client, les données météorologiques, cela commence à devenir compliqué. Et cher aussi, très cher.

Le poc: payer pour voir.

François Rosset, directeur BU Data et Cédric Hervet, analyste en recherche opérationnelle au sein de la société de traitement de données SocioLogiciels sont venus parler de l’intérêt de réaliser un POC ou proof of concept lors d’une conférence au Printemps des études en  avril 2015. Avant de se lancer dans une architecture big data, le POC permet de faire une premier audit pour un budget raisonnable, entre 20 K€ et 100 K€.

Le seul pré-requis est de poser une question à laquelle le POC devra répondre. Le POC consiste à créer une base partielle des données, de faire des tests et d’en tirer des conclusions. Cela permettra donc de valider l’intérêt de la mise en place d’une architecture big data et permet de faire un premier audit sur le travail à réaliser sur les données. Il s’agit véritablement d’éviter un énorme investissement qui se révèlerait inutile.

Quel POC pour quel problème ?

La société SocioLogiciels a partagé quelques exemples de POC. Un POC peut servir à prédire des processus industriels, comme des pannes par exemple. Dans ce cas la donnée provient des multiples capteurs. Un POC peut aussi servir à identifier le potentiel d’une clientèle selon les zones, en partant des adresses des succursales et de données INSEE.

Et en théorie, on pourrait utiliser le big data pour remplacer ou du moins compléter certaines études marketing. Il serait intéressant de réaliser un POC pour réaliser un tracking de marque et voir si les données disponibles sur internet pourraient s’approcher des données fournies via les questionnaires. Il sera peut être un jour tout à fait possible de monitorer de façon précise et juste l’image d’une marque en partant de données disponibles sur internet. Mais comme le rappelle Cédric Hervet, cela reste encore théorique pour le moment. Cela sera peut-être un peu moins théorique au prochain rendez-vous des études marketing en 2016.