Stage – Datawarehousing

Factorisation des classes de données sémantiquement équivalentes dans un Data Warehouse

TRIMANE est un groupe de services numériques (ESN) d’une centaine de consultants spécialisés dans les missions d’audit, de conception et de réalisation de projets dédiés au décisionnel ainsi qu’au pilotage de la performance.

Le pôle recherche et développement souhaite consolider son savoir-faire dans le traitement massif de données, les process de développement et son architecture cloud.

Trimane est basée à Paris et Toulouse.

Présentation du sujet

Factorisation des classes de données sémantiquement équivalentes dans un Data Warehouse

Descriptif

Un data Lake regroupe des ensembles de données brutes issues de différentes applications gérées de manière indépendante. Or ces données s’avèrent difficiles à exploiter dans des applications décisionnelles. Une solution à ce problème consiste à extraire les données décisionnelles du Data Lake puis à les réorganiser dans un Data Warehouse. Nous avons choisi un système NoSQL orienté document (OrientDB) pour gérer le Data Warehouse.

Le Data Warehouse contient donc des classes d’objets extraites de plusieurs ensembles de données indépendants et il est fréquent que des objets « équivalents », c’est-à-dire de même sémantique mais de structures différentes, apparaissent. Ainsi, on dit que deux classes d’objets sont équivalentes si elles
contiennent des données relatives aux mêmes entités (même sujet du monde réel).

Dans le Data Warehouse, il est donc utile de regrouper les classes équivalentes en les représentant par une classe unique spécifiant la sémantique commune. Pour réaliser cette factorisation de nature sémantique, nous pouvons nous appuyer sur une ontologie établissant les correspondances entre les termes des classes équivalentes. Cette ontologie est établie à partir des spécifications fournies par des administrateurs de données apportant leur expertise métier.

Le stagiaire Master devra proposer puis mettre en œuvre une solution permettant de factoriser les classes « équivalentes » dans une classe commune dans le Data Warehouse. Une démarche de recherche basée sur les travaux les plus récents est nécessaire pour aborder ce projet.

Votre profil

Connaissances requises :

  • Bases de données relationnelles
  • Business Intelligence
  • Modélisation
  • Programmation : Java et Python
  • La connaissance du Machine Learning et des librairies de référence en apprentissage (exemple : Scikit-learn et Tensorflow) seraient un plus
  • Des connaissances en Big Data, les bases NoSQL (MongoDB, OrientDB, etc.), web sémantique et l’intelligence artificielle seraient appréciées

Profil recherché :

  • BAC+5 en informatique (préparant un diplôme de master ou un diplôme d’ingénieur)
  • Motivé(e), autonome, curieux(se) dans la recherche appliquée.
  • Selon le profil de l’étudiant et sa motivation, ce stage peut déboucher sur la préparation d’un doctorat dans le cadre d’une bourse CIFRE

Modalités

Date de début : variable selon la formation.
Durée du stage : variable selon la formation.
Localisation : Laboratoire de recherche CBI² – Société TRIMANE – Tour W à La Défense
Candidature : CV détaillé, lettre de motivation et relevés de notes (3 dernières années)
Date de candidature : le plus tôt possible.

Co-encadrant :
Fatma ABDELHEDI (PhD, Directrice du laboratoire de recherche CBI2) – fatma.abdelhedi@trimane.fr
Slimane HAMMOUDI (PhD, HDR, ESEO, Angers) – slimane.hammoudi@eseo.fr

Mots-clés : Business Intelligence, Big Data, NoSQL, Machine Learning, web sémantique, ETL.

Partager