Donner à l’étudiant les principales clés qui vont lui permettre d’entrer dans l’univers de l’Informatique Décisionnelle et du Big Data.

L’objectif du parcours

Concrètement, il s’agit d’une part des connaissances mathématiques (statistiques, analyse de données, …) qui visent à modéliser la réalité étudiée et à identifier des corrélations au sein des données qui la décrivent. L’autre versant est constitué des technologies informatiques qui permettent de stocker et de traiter de grandes quantités d’informations, ainsi que de produire des représentations visuelles ou chiffrées qui soient à la fois pertinentes et directement utilisables par les décideurs.

Année dispensée

Ce parcours technologique est proposé en 4e année (M1) du programme ingénieur. Il permet de colorer le cursus de l’ingénieur généraliste en informatique et technologies du numérique en lui permettant de se projeter dans une carrière plus spécialisée.

Compétences visées

Module Big Data & Business Intelligence 2

Projection professionnelle

Secteurs d’activité

Tous les secteurs sont concernés par le traitement de données massives : finances, commerce, industrie, défense, éducation, santé…

Carrières possibles

Elles sont nombreuses : Consultant en BI et Big Data, Administrateur des Data Warehouses, Ingénieur d’études, Chef de projets de SI décisionnels, Responsable de bases de données décisionnelles

Programme

Ce module s’intéresse aux graphes et à leurs applications. Après une phase théorique indispensable, l’accent sera mis sur le côté applicatif, à travers la mise en pratique de différents algorithmes (coloration, plus court chemin, arbres de décision) à forte valeur ajoutée dans les domaines de l’IA.

Durée : 25.5 h

Les données qui sont enregistrées et utilisées au jour le jour par l’entreprise sont stockées sous une forme qui est optimisée pour les accès individuels et ciblés de leur usage quotidien. Mais, cela les rend impropres à des analyses de masse.

L’informatique décisionnelle (BI) consiste à transférer ces données dans des entrepôts spécialisés (Data Warehouses) dans lesquels les données sont représentées selon un modèle optimisé pour les traitements d’analyse. Lors de leur transfert, les données subissent des opérations telles que le filtrage et l’agrégation.

Ensuite, de nombreux outils peuvent être utilisés pour les analyser. Les outils de reporting permettent de créer des rapports ou des graphiques pour obtenir des représentations synthétiques utilisées de façon récurrente. L’analyse multidimensionnelle (hypercube OLAP) permet d’effectuer des requêtes interactives à la demande. Le langage R est un des outils privilégiés pour programmer des traitements complexes et les intégrer à des applications ou à des sites web.

Durée : 48 h

Le Data Mining (exploration de données) est une famille d’outils permettant l’analyse de grandes quantités de données afin d’en faire émerger des informations significatives telles que des corrélations entre des phénomènes en apparence distincts. Un des buts recherché est de détecter des tendances.

Cette matière vise à apporter des connaissances mathématiques complémentaires à celles déjà acquises dans le tronc commun du cursus 3iL, concernant les statistiques et l’analyse de données. Ici on se focalisera sur les techniques relevant de l’apprentissage supervisé et notamment le clustering (partitionnement). Cette approche vise à identifier des groupes de faits de telle sorte que les faits appartenant à un même groupe présentent plus de similitudes entre eux qu’avec les faits appartenant aux autres groupes.

Durée : 45 h

Le modèle classique de bases de données (SQL) est bien adapté au traitement de données très structurées et fortement liées les unes aux autres. C’est un modèle de type centralisé qui ne peut pas être étendu indéfiniment sans subir des baisses de performances. Inversement, le modèle NoSQL suit une approche décentralisée qui le rend apte à traiter d’immenses volumes de données et ce d’autant plus qu’elles sont faiblement structurées et peu liées entre elles.

C’est ce modèle qui a été adopté par les géants du web. Il permet de répartir les charges de traitement et de stockage entre de nombreux serveurs fonctionnant en parallèle.

Durée : 24 h

Le cloud computing consiste à utiliser des ressources informatiques distantes à travers le réseau Internet. Dans le cadre du Big Data, cela permet de paralléliser le stockage et le traitement des données, et donc de démultiplier la puissance disponible au fur et à mesure de l’accroissement des besoins.

Dans ce cadre, le framework Hadoop facilite le développement d’applications réparties. Les traitements doivent être conçus de façon à être découpés en tâches élémentaires pouvant être exécutées en parallèle sur un grand nombre de nœuds. D’autres nœuds peuvent alors être chargés de collecter les résultats produits et de les combiner afin de construire le résultat final.

De nombreux logiciels compatibles avec Hadoop sont disponibles et permettent de bâtir des solutions complètes, exploitant au mieux les possibilités du cloud computing pour le traitement de données en masse.

Durée : 13.5 h