Pour regarder cette vidéo, vous devez consentir aux Cookies de notre partenaire Youtube Ces cookies permettent de partager ou réagir directement sur les réseaux sociaux auxquels vous êtes connectés ou d'intégrer du contenu initialement posté sur ces réseaux sociaux. Ils permettent aussi aux réseaux sociaux d'utiliser vos visites sur nos sites et applications à des fins de personnalisation et de ciblage publicitaire.
La plupart réalisent, en effet, plusieurs centaines d’études chaque année, sur d’autres sujets de société : nos usages d’Internet, nos achats en période de soldes, nos habitudes de consommation, etc. Et s’il était possible, avec les Big Data, de collecter toutes ces données et d’en analyser les corrélations ? Pourrions-nous voir, au travers de toutes ces études, des tendances de fond et des signaux faibles qui nous avaient jusqu’ici échappé ? C’est ce qu’a tenté de faire OpinionWay : un projet qui relève du challenge, et que nous allons décortiquer avec Anna Oualid, Directrice du Social Media Research, Bruno Jeanbart, Directeur Général Adjoint chez OpinionWay et Olivier Madelin du Groupe Cyrès, partenaire Orange Cloud for Business.
Du pixel à la photographie : genèse et objectifs du projet Big Data
« Nous avons dans un premier temps récolté toutes les données de nos études publiées depuis 2012, c’est-à-dire au début du quinquennat de François Hollande. Cela nous permettait d’avoir une unité de temps cohérente et un point de départ précis », explique Anna Oualid. Les données et les thématiques abordées sont diverses : allant du sondage d’opinion ou politique, au coût de la rentrée scolaire, à la mobilité bancaire ou encore aux achats de noël, etc. L’objectif était ainsi d’étudier les scenarii possibles de mises en corrélation des données et en tirer des éventuelles tendances, profils de consommation… Le croisement de toutes ces données provenant de plus de 1 500 études permet, en effet, de répondre à des questions plus complexes : à titre d’exemple, on peut chercher à connaître le profil d'un électeur d'un parti, non pas au travers du point de vue politique, mais par le prisme de sa consommation.
Réaliser ce travail n’est cependant pas une mince affaire : on parle ici de trier une masse conséquente de données. Elle est constituée de plus de 40 000 questions et 45 millions de réponses provenant de 50 000 personnes. Traiter autant de données nécessite un savoir-faire complexe et des compétences de data scientist : Cyrès s’est donc chargé d’effectuer cette mission. Grâce à un environnement Cloud développé par Orange Business, Cyrès a pu construire un écosystème Big Data et gérer toutes les données récoltées par OpinionWay.
De la récolte à la compréhension des données
Le projet a commencé dans les locaux d’OpinionWay, avec un travail de collecte de la donnée : « nous avons récupéré toutes les bases : un énorme travail de rationalisation de la donnée a été réalisé, pour pouvoir les exploiter », explique Anna Oualid. Ce travail de rationalisation, qui a nécessité plusieurs mois, est crucial et se retrouve à la base de tout projet Big Data. Il consiste à rendre la donnée homogène dans tous les fichiers afin de pouvoir effectuer des croisements. Par exemple, si les chiffres sont exprimés en millions d’euros dans un fichier et en milliers dans un autre, le croisement de ces deux fichiers fournira des données erronées.
Une fois les données transmises, le travail de préparation de la donnée effectué en amont n’était pas pour autant terminé. Olivier Madelin de Cyrès témoigne : « une fois les données collectées, il est nécessaire de savoir comment elles sont constituées, afin de les rationnaliser, les structurer et les intégrer dans le nouvel environnement pour produire les résultats attendus ».
Une donnée mal comprise peut entraîner des erreurs : prenons l’exemple des départements géographiques. Il existe plusieurs indicateurs de localisation des individus : le code Insee est généralement la norme utilisée par les entreprises de sondages. Celui-ci n’est pourtant pas compris de tous (en particulier des personnes interrogées), et les instituts de sondages doivent donc recourir au code postal. En compilant les données, on retrouve alors deux codes différents pour indiquer une localisation, provoquant des erreurs dans certains croisements, d’où l’intérêt auparavant de trier la donnée et l’uniformiser.
Utiliser les Big Data pour faire parler la donnée
Une fois la donnée préparée, vient le traitement par les outils Big Data. « Les technologies Big Data vont permettre de traiter cette masse de données dans des temps très courts », explique Olivier Madelin. En effet, si une compilation de données s’effectue en quelques secondes seulement, elle pourrait prendre plusieurs heures avec des outils traditionnels.
« Nous disposons d’un écosystème Big Data avec un ensemble de solutions logicielles qui s’agrègent les unes aux autres », précise Olivier Madelin. « Ces solutions applicatives vont ensuite traiter la donnée et effectuer des requêtes pour obtenir des résultats et les présenter à l’utilisateur final de façon structurée et organisée ».
Un projet Big Data, contrairement aux idées reçues, est donc un travail long et minutieux, souvent manuel, qui se travaille essentiellement en amont et qui nécessite une rigueur sans failles.
Yann
Pour aller plus loin
Je suis spécialiste en systèmes d'information, marketing de la highTech et Web marketing. Je suis auteur et contributeur de nombreux ouvrages et Directeur Général de Visionary Marketing. A ce titre, je contribue régulièrement sur ce blog pour le compte d'Orange Business sur les sujets du cloud computing et du stockage dans le cloud.