Interview Big Data : être datascientist, c’est quoi ?

data-scientist-malle

“Big data”, “Java”, “traitement de données massives”…Vous vous êtes toujours demandé ce que faisait réellement un datascientist ?

Jean-Pierre Malle, fondateur de m8, (société dédiée au développement et à la promotion de l’analyse contextuelle, comportementale, cognitive et situationnelle auprès d’entreprises) nous explique en quoi consiste ce nouveau métier qu’il exerce. A l’origine de méthodes, modèles, algorithmes et logiciels de psychologie cognitive et de psychosociologie, il travaille les données ayant un lien avec les humains ou les groupes sociaux et a conçu plusieurs technologies brevetées dans l’univers du big data.

Quelle est la journée type d’un datascientist?

Un datascientist participe à plusieurs projets simultanément. C’est quelqu’un qui a besoin de se concentrer, mais comme la demande est forte il est sollicité en parallèle sur plusieurs sujets.

Dans chaque projet les mêmes types d’activités se déroulent. Cela commence généralement par une revue de sources de données. Il doit évaluer les volumes et la variété des données, leurs vitesses d’évolution et leur qualité, il doit aussi les valoriser. Un des grands défis du datascientist est de les interpréter sachant que les données non structurées utilisent des termes et des symboles dont le sens est différent d’une région à l’autre, d’une culture à l’autre, d’une époque à l’autre. Le datascientist travaille dans l’incertitude, l’incomplétude et l’ambiguïté des données.

Pour certaines de ces sources il ne pourra pas se contenter de leurs descriptions ou d’entretiens avec des producteurs, des administrateurs et des consommateurs de ces données. Il devra alors analyser concrètement des données issues de ces sources. Mais contrairement à ce qui se pratique ordinairement, le datascientist fouille les données à la recherche des signaux faibles.

Dans une seconde phase, le datascientist va travailler à la transformation des données pour en extraire des données induites et opérer des prédictions. Les transformations sont généralement des opérations mathématiques complexes qui reposent sur une très bonne compréhension des données par le datascientist.

La troisième phase du projet du datascientist concerne l’exposition des données révélées par les transformations. Là, les dirigeants demandent des tableaux de bord, des graphiques, sans quoi ils seraient perdus. Le datascientist est alors confronté à la problématique de soit représenter les cas fréquents peu porteurs d’information, soit représenter les signaux faibles peu compréhensibles par le lecteur. Il devra garder son calme.

Où faut-il chercher quand on recrute un datascientist ?

Un datascientist est avant tout un ingénieur. C’est un concepteur de modèles « qui agissent » implémentés par des machines apprenantes. Il doit intervenir avec célérité car les données sont périssables. Comprendre les données avant les autres, détecter des signaux imperceptibles, anticiper les données donnera à son entreprise une suprématie incontestable. On trouvera donc les datascientists dans des écoles d’ingénieurs plutôt généralistes et depuis peu avec une spécialité data.

Statisticiens, informations ou dataminers peuvent parfois faire de bons datascientists s’ils développent un esprit scientifique ouvert avec une capacité d’analyse prononcée. S’ils peuvent remettre en question leur formatage et être pris de doutes, ils pourront devenir des datascientists performants. C’est pourquoi ces capacités sont si recherchées.

A quoi reconnait-on un bon datascientist ?

Un datascientist analyse le sens porté par les données.

Il doit maitriser plusieurs dimensions :

  • Le métier sur lequel portent les données afin d’en appréhender le sens
  • Les techniques et outils d’analyse mathématiques, statistiques, sémantiques
  • Les sources de données et leurs propriétés

Les anglosaxons considèrent que la dimension métier est primordiale. Selon eux le datascientiste pourra toujours apprendre à manier les outils mais si les données n’ont pas de sens pour lui alors il ne sera pas performant.

Les latins, et donc nos académiques, considèrent que la dimension outils est primordiale. Selon eux le datascientist pourra toujours se débrouiller avec des données s’il maitrise les outils d’analyse.

De mon côté je considère, comme les anglosaxons, que le sens est primordial à la conduite de l’analyse, que le datascientist peut apprendre par la suite les outils d’analyse mais qu’il doit maitriser les mathématiques car cela ne s’invente pas et qu’il doit avoir développé un esprit scientifique lui permettant de faire la part des choses dans ces données et dans les techniques. C’est un cocktail difficile à construire. Il n’y a pas de datascientist parfait, chacun devra progresser sur les dimensions qu’il maitrise moins, mais si une dimension n’existe pas du tout, alors il sera très difficile d’en faire un bon datascientist.

Pourquoi datascientist est-il le métier de demain ?

Le secteur de la donnée est en passe de devenir le quatrième secteur économique des nations. On nous annonce que dans les années 2020 notre PIB contiendra 25% d’activité liées aux données. C’est une croissance colossale. A mi-siècle cela devrait représenter plus de la moitié de notre PIB.

Dans ces conditions nous devons produire des centaines de milliers de datascientists qui interviendront massivement dans la connaissance des personnes, des contextes, des cultures, des événements.

L’explosion attendue du secteur des objets connectés produira aussi une masse d’information colossale à traiter. Les ordinateurs quantiques apporteront une puissance de calcul permettant de construire des cerveaux plus puissants que les nôtres doués d’imagination.

Toutes ces avancées dont on n’imagine même pas la portée aujourd’hui fonctionneront toutes avec le même carburant … Les données.