Stage Data Science

Gestion améliorée de la qualité de données par génération automatique de prédicats

Fondée en 2005, TRIMANE est un cabinet de conseil et une société de service spécialisée en Data Intelligence (BI et Big Data), notre mission est de créer de la valeur à partir des données disponibles dans les entreprises, en s’appuyant sur des approches algorithmiques innovantes, des méthodologies spécifiques et de nombreuses technologies.

En tant que spécialiste Data, nous sommes reconnus pour le très haut niveau d’expertise de nos consultants et de notre retour d’expérience en la matière.

Nous accompagnons nos clients du secteur public ou privé sur des prestations de Conseil, MOA et MOE, autour du traitement et l’analyse des data, quel que soit l’environnement technique (BI, Big Data, Cloud, Machine Learning, Deep Learning, NLP, etc.) ou sur les aspects méthodologiques (Gestion de projet, Agile, DataOps, stratégie Data Gouvernance, organisation Data Driven…).

TRIMANE accompagne la montée en compétences de ses collaborateurs grâce à son organisme de Formation agréé BI & Big Data (+ de 40 formations au catalogue), et son Datalab le CBI², acteur de la recherche scientifique orientée Data, impliquant entre autres la production d’outils d’Analyse de données & Dashboarding, d’intégration de données et de prédiction juridique.

Nous recrutons, avant tout, des personnes passionnées désirant intégrer une vraie communauté et construire ensemble une relation durable et de confiance.

TRIMANE fait partie de The Blockchain Group, seule société cotée en France spécialisée en conseil technologique et édition de plateformes de Blockchain as a service.

Présentation du sujet

Contexte

Le stage proposé porte sur un projet lancé en interne ayant pour vocation d’améliorer l’offre de service de Trimane. Dans le cadre de ses activités de mise en place de systèmes décisionnels, Trimane accompagne fréquemment ses clients vers une maturité accrue quant à la gestion de leurs données. Cette transition requiert généralement un assainissement des jeux de données en place, ce qui nécessite d’identifier des règles à même de détecter les données à corriger. Ces règles sont décidées conjointement avec les services concernés (producteur et utilisateur des données) mais leur découverte relève en majorité de l’empirisme, après une analyse préliminaire des données fournies.

Descriptif

L’objectif de ce stage est de s’appuyer sur les techniques d’apprentissage automatique afin d’améliorer cette étape d’identification et de la rendre plus exhaustive. Plus formellement, le but est de parvenir à définir une liste de prédicats permettant de déterminer les points de données jugés anormaux à partir d’un jeu de données arbitraire. Une étape préliminaire cruciale consistera à expliciter formellement ce que constitue le caractère anormal selon le type de donnée géré (relationnelle, tabulaire, temporelle, image, …). Le stagiaire pourra notamment s’inspirer du framework Snorkel[1] qui permet approximativement la fonction inverse (définir manuellement une liste de prédicats et laisser le framework générer des données respectant la forme du jeu de donnée initial). Des techniques de détection d’anomalies basées sur la variation de densité locale peuvent également être envisagées.

Le stagiaire pourra s’appuyer sur un ensemble de jeux de données réels et des règles de nettoyage associées venant de l’historique des réalisations de Trimane. Ces jeux d’entraînement pourront éventuellement être complétés avec des exemples de nettoyage de données fournis librement ici et là sur Internet, dans le respect des licences de réutilisation.

Pendant la durée de stage, ce sujet peut faire l’objet d’évolutions pour s’adapter aux contraintes de la société Trimane. En cas de modification importante, il sera soumis à l’approbation des parties signataires de la convention.

[1] https://www.snorkel.org/

Attendu :

Le stage étant principalement une mission de recherche et d’analyse, l’attendu demandé est un prototype jouant le rôle de preuve de concept et permettant de tester la technologie développée. Une visualisation graphique des résultats par un outil de restitution sera également valorisée et soutenue. Une mise en production au sein d’outils internes et déployés pourra être envisagée selon le niveau de maturité du prototype.

Environnement technique

L’environnement technique de développement est laissé assez libre. Une préférence est toutefois émise quant à l’utilisation de composants libres et gratuits pour le développement de la solution.

Références

Votre profil

De solides connaissances en analyse de données et conception de modèles issus du Machine Learning sont requises pour ce stage. Une preuve de concept étant à développer à l’issue de ce stage, la maîtrise d’un langage de programmation, – idéalement Python – est également demandée. Une connaissance des techniques de développement au sein d’un milieu DevOps (versioning avec Git, gestion de conteneurs, création d’image Docker, intégration continue, …) sera en outre valorisée.

Le profil idéal est rigoureux, organisé, créatif techniquement, et capable d’autonomie.

Modalités

Le/la stagiaire sera encadré(e) tout à long du stage sur l’ensemble des aspects techniques (phases d’analyse, de conception et de développement).

La durée prévue du stage est de 6 mois, il se déroulera en idéalement dans les locaux de Trimane à Paris ou Toulouse. Cependant télétravail est envisageable.

La date de début du stage est prévue courant Avril 2022. Il s’agit d’un stage de pré-embauche rémunéré.

Partager