Module Business Intelligence & BIG dATA

Module technologique 4ème année (M1)

i

OBJECTIFS

Donner à l’étudiant les principales clés qui vont lui permettre d’entrer dans l’univers de l’Informatique Décisionnelle et du Big Data. 

Plus d'informations

Concrètement, il s’agit d’une part des connaissances mathématiques (statistiques, analyse de données, …) qui visent à modéliser la réalité étudiée et à identifier des corrélations au sein des données qui la décrivent. L’autre versant est constitué des technologies informatiques qui permettent de stocker et de traiter de grandes quantités d’informations, ainsi que de produire des représentations visuelles ou chiffrées qui soient à la fois pertinentes et directement utilisables par les décideurs.

COMPETENCES VISEES

Maîtrise des environnements distribués.
Appropriation des nouveaux SGBD de type NoSQL et des notions avancées des entrepôts de données.

Plus d'informations
  • Management des données massives.
  • Acquisition des techniques de fouille de données massives.
  • Pratique des outils du BI pour la visualisation de l’analyse.
  • Conception et gestion des projets de systèmes d’informations décisionnels

VISION PROFESSIONNELLE

Module permettant de briguer les fonctions de Consultant en BI et Big Data, Administrateur des Data Warehouses, ingénieur d’études…

Plus d'informations

Chef de projets de SI décisionnels, Responsable de bases de données décisionnelles. Tous secteurs d’activités concernés.

BI ET BASES DE DONNEES A 3IL

 

BI est l’acronyme de Business Intelligence (Informatique Décisionnelle en français). Cela recouvre des activités informatiques destinées aux décideurs et aux dirigeants d’entreprises pour leur offrir une aide à la décision en leur donnant une vue d’ensemble sur les activités qu’ils gèrent.

Les données sont d’abord collectées et stockées. Puis, il faut les organiser pour qu’elles constituent un modèle donnant une représentation pertinente de la réalité que l’on veut étudier. Comme il s’agit généralement de gros volumes, il est nécessaire de faire appel à des techniques d’optimisation pour minimiser les temps de traitement. Enfin, la dernière étape consiste à effectuer des analyses et à les traduire sous forme de tableaux ou de graphiques directement utilisables par les décideurs.

Quant au Big Data, il s’inscrit dans une perspective assez différente de celle de la BI. En effet, la BI se limite à donner une représentation synthétique du passé, c’est-à-dire des faits constatés. Ce sont les décideurs qui doivent ensuite les interpréter et en tirer leur conclusion selon leurs propres critères.

Inversement, le Big Data cherche à découvrir, au sein de grandes masses de données, des règles permettant de faire des prévisions. Par exemple, à partir des nombreuses données d’une population importante – des e-mails, des photos, des traces de navigation sur Internet, etc. – peut-on en déduire des règles permettant de prédire le comportement de certaines personnes, leurs goûts, ou leur profil de consommateur ? On ne le sait pas à l’avance et, si de telles règles émergent, il reste à s’assurer de leur fiabilité.

Le Big Data est donc un champ d’activités hautement pluridisciplinaire dans lequel le volet informatique couvre essentiellement les aspects suivants :

  • L’accès à des données dispersées et non structurées.
  • La parallélisation des traitements.
  • La mise en œuvre d’algorithmes spécifiques issus de l’intelligence artificielle et des statistiques inférentielles.

Programme

Théorie des graphes

Ce module s’intéresse aux graphes et à leurs applications. Après une phase théorique indispensable, l’accent sera mis sur le côté applicatif, à travers la mise en pratique de différents algorithmes (coloration, plus court chemin, arbres de décision) à forte valeur ajoutée dans les domaines de l’IA.

Durée : 25.5 h

Data Mining

Le Data Mining (exploration de données) est une famille d’outils permettant l’analyse de grandes quantités de données afin d’en faire émerger des informations significatives telles que des corrélations entre des phénomènes en apparence distincts. Un des buts recherché est de détecter des tendances.

Cette matière vise à apporter des connaissances mathématiques complémentaires à celles déjà acquises dans le tronc commun du cursus 3iL, concernant les statistiques et l’analyse de données. Ici on se focalisera sur les techniques relevant de l’apprentissage supervisé et notamment le clustering (partitionnement). Cette approche vise à identifier des groupes de faits de telle sorte que les faits appartenant à un même groupe présentent plus de similitudes entre eux qu’avec les faits appartenant aux autres groupes.

Durée : 45 h

Bases de Donnés NoSQL

Le modèle classique de bases de données (SQL) est bien adapté au traitement de données très structurées et fortement liées les unes aux autres. C’est un modèle de type centralisé qui ne peut pas être étendu indéfiniment sans subir des baisses de performances. Inversement, le modèle NoSQL suit une approche décentralisée qui le rend apte à traiter d’immenses volumes de données et ce d’autant plus qu’elles sont faiblement structurées et peu liées entre elles.

C’est ce modèle qui a été adopté par les géants du web. Il permet de répartir les charges de traitement et de stockage entre de nombreux serveurs fonctionnant en parallèle.

Durée : 24 h

Business Intelligence / Informatique Décisionnelle

Les données qui sont enregistrées et utilisées au jour le jour par l’entreprise sont stockées sous une forme qui est optimisée pour les accès individuels et ciblés de leur usage quotidien. Mais, cela les rend impropres à des analyse de masse.

L’informatique décisionnelle (BI) consiste à transférer ces données dans des entrepôts spécialisés (Data Warehouses) dans lesquels les données sont représentées selon un modèle optimisé pour les traitements d’analyse. Lors de leur transfert, les données subissent des opérations telles que le filtrage et l’agrégation.

Ensuite, de nombreux outils peuvent être utilisés pour les analyser. Les outils de reporting permettent de créer des rapports ou des graphiques pour obtenir des représentations synthétiques utilisées de façon récurrente. L’analyse multidimensionnelle (hypercube OLAP) permet d’effectuer des requêtes interactives à la demande. Le langage R est un des outils privilégiés pour programmer des traitements complexes et les intégrer à des applications ou à des sites web.

Durée : 48 h

Cloud for data

Le cloud computing consiste à utiliser des ressources informatiques distantes à travers le réseau Internet. Dans le cadre du Big Data, cela permet de paralléliser le stockage et le traitement des données, et donc de démultiplier la puissance disponible au fur et à mesure de l’accroissement des besoins.

Dans ce cadre, le framework Hadoop facilite le développement d’applications réparties. Les traitements doivent être conçus de façon à être découpés en tâches élémentaires pouvant être exécutées en parallèle sur un grand nombre de nœuds. D’autres nœuds peuvent alors être chargés de collecter les résultats produits et de les combiner afin de construire le résultat final.

De nombreux logiciels compatibles avec Hadoop sont disponibles et permettent de bâtir des solutions complètes, exploitant au mieux les possibilités du cloud computing pour le traitement de données en masse.

Durée : 13.5 h

Comment s'inscrire ?

Découvrir notre plaquette

 

N

Les formations

N

La mobilité internationale

N

Relations entreprises, recherche et innovation

N

La vie sur le campus

CONTACT

DOWNLOAD

S'INSCRIRE