Introduction à la Data Science

Eric Dupuis

On en entend parler de plus en plus de nos jours, des termes comme « big data » ou « machine learning » commencent même à être connus du grand public. Si la problématique est présente chez les grands du web comme facebook ou google depuis assez longtemps, l’utilisation de toutes ces techniques commence à se démocratiser. La république en marche aurait même utilisé certaines de ces techniques afin de mieux cibler son électorat pour faire du porte à porte lors des dernières élections par exemple. Mais qu’est-ce exactement que la data science et quel(s) domaine(s) recouvre-t-elle ?

 

1-    La Data Science : un domaine vaste

On retrouve un grand nombre de notions qui font partie, de près ou de loin, de la Data Science.

data science 2

A première vue, cela peut sembler un peu compliqué. Essayons d’y voir plus clair en définissant plus précisément 2 de ses expressions emblématiques.

 

2-    Big Data ou Data Science ? Kesako ?

Le « big data » désigne l’ensemble des techniques permettant l’exploitation et l’utilisation (analyse, tri, accès…) de très gros volumes de données. Ce domaine, très vaste, passe du stockage des données lui-même (avec des technos noSQL comme cassandra ou mongoDB), aux plateformes de traitements permettant une puissance de calcul suffisante pour traiter de tels volumes notamment en parallélisant les calculs (hadoop, mapReduce), des techniques d’analyse et de tri (statistiques, réseaux de neurones…).

La data science, désigne l’ensemble des techniques qui permettent d’analyser et de trier les données. Elle mélange modélisation mathématique et statistique ainsi qu’informatique. La data science s’applique donc aux données en général, pas spécifiquement au big data et c’est elle qui va nous intéresser principalement dans ce billet.

Si la majeure partie des techniques de data science existent depuis une trentaine d’années, ce n’est que récemment que nombre d’entre elles ont commencé à porter leurs fruits. Essentiellement grâce au big data. En effet, de nombreux modèles complexes nécessitent une grande quantité de données (et la puissance de calcul qui va avec) afin de révéler leur potentiel.

 

3-    Une approche avant tout mathématique

De façon très basique, la data science consiste à modéliser le comportement de données afin de prédire ou de trier ces données. Selon que le modèle choisi sera plus ou moins bien adapté aux données, on obtiendra des résultats plus ou moins intéressants.

Le domaine étant assez vaste, on va ici se limiter à l’étude de l’apprentissage automatique (machine learning).

Avant d’aller plus loin, il est nécessaire de préciser un peu ce que l’on entend par donnée. De manière générale, une donnée est une information qui concerne la réalité. Pour simplifier les choses on regroupe en général ces données autour d’un objet d’étude (par exemple un individu) et on rassemble alors ces données dans un tableau avec des colonnes décrivant l’objet de l’étude (par exemple si on s’intéresse aux individus, on pourra avoir des colonnes telles que nom, prénom, age, sexe, taille, poids, couleur des yeux, des cheveux…) et des lignes chacune décrivant un cas différent de l’étude.

En science des données, on distinguera essentiellement 2 types de données : les données discrètes (au sens statistique du terme) qui ont un nombre fini (raisonnable) de valeurs possibles, et les données continues qui peuvent prendre un nombre infini de valeurs différentes (ou très grand).

A suivre….

Dans le prochain article, nous rentrerons encore plus dans le détail de la Data Science et je vous exposerai ainsi les modèles et prédictions liés.

 

facebooktwittergoogle_plusmail