Data Engineer, Data Scientist et ML Engineer sont trois métiers data complémentaires mais non interchangeables : le Data Engineer construit l'infrastructure de données, le Data Scientist en extrait des décisions, le ML Engineer met les modèles en production. Confondre ces rôles dans un brief mène à un recrutement raté. Ce guide détaille missions, stacks, questions d'entretien et canaux de sourcing pour chacun.
Pourquoi la confusion des rôles data coûte cher
La confusion entre les trois rôles data est l'une des causes les plus fréquentes d'échec de recrutement dans les équipes tech. Demander à un Data Scientist de construire un pipeline d'ingestion industriel, ou à un Data Engineer de modéliser un risque client, revient à recruter quelqu'un pour un métier qu'il n'exerce pas.
Les trois rôles s'articulent comme une chaîne de valeur : le Data Engineer pose les fondations, le Data Scientist produit l'analyse et les modèles, le ML Engineer industrialise. Chacun dépend des autres mais aucun ne remplace l'autre. Le préalable à tout recrutement data réussi est donc de savoir exactement quel maillon vous cherchez à renforcer.
Data Engineer : construire la tuyauterie de données
Le Data Engineer conçoit, construit et maintient l'infrastructure qui rend la donnée exploitable : ingestion, transformation, stockage, optimisation et fiabilité. Sans lui, les deux autres rôles travaillent sur des données instables ou inaccessibles.
- Stack typique : Python, SQL, orchestrateurs de workflows, outils de transformation, moteurs de traitement distribué, entrepôts de données cloud, bus de messages.
- Signaux positifs : contributions à des projets open source d'ingénierie data, expérience avec de gros volumes, réflexe « qualité de données » systématique.
- À surveiller : un candidat qui répond à un problème de gros volume par un outil d'analyse local n'a pas le réflexe d'ingénieur data.
Data Scientist : extraire l'insight et modéliser
Le Data Scientist transforme la donnée en décision business par l'analyse statistique et la modélisation. Sa valeur tient autant à sa rigueur analytique qu'à sa capacité à vulgariser ses résultats auprès de décideurs non techniques.
- Stack typique : Python (écosystème d'analyse et de machine learning), SQL, notebooks, outils de visualisation et de reporting.
- Signaux positifs : solide formation quantitative, pratique de compétitions de modélisation, capacité démontrée à expliquer un résultat complexe simplement.
- À surveiller : un excellent modélisateur qui ne sait pas relier son travail à un impact business reste sous-exploité.
ML Engineer : mettre les modèles en production
Le ML Engineer fait le pont entre le Data Scientist et l'ingénierie logicielle : il déploie, surveille et maintient les modèles de machine learning en production, avec une charge et des contraintes réelles. C'est souvent le profil le plus rare et le plus recherché sur le marché français.
- Stack typique : Python, conteneurisation et orchestration, outils de suivi d'expériences et de déploiement de modèles, intégration continue, surveillance en production.
- Signaux positifs : a déjà mis en production des modèles soumis à une charge réelle et géré leur cycle de vie dans le temps.
- À surveiller : face à une dégradation de performance en production, il doit penser dérive des données avant de penser bug de code.
Tableau comparatif des trois rôles data
Le tableau ci-dessous synthétise les différences structurantes. Il sert de grille de cadrage pour choisir le bon maillon avant d'ouvrir un poste.
| Critère | Data Engineer | Data Scientist | ML Engineer |
|---|---|---|---|
| Mission principale | Infrastructure et pipelines | Analyse et modélisation | Mise en production des modèles |
| Compétence centrale | Ingénierie de données | Statistiques et business | Ingénierie logicielle et MLOps |
| Livrable type | Pipeline fiable et performant | Modèle, analyse, recommandation | Service de modèle surveillé |
| Rareté sur le marché | Modérée | Élevée selon le niveau | La plus élevée des trois |
Questions d'entretien discriminantes
Les bonnes questions d'entretien révèlent immédiatement si un candidat exerce vraiment le métier visé. Voici une question discriminante par rôle.
Pour un Data Engineer
« Tu reçois un volume massif de données par heure : comment construis-tu le pipeline ? » On attend une réflexion sur le traitement distribué, le partitionnement, l'orchestration et la qualité de données. Une réponse qui s'appuie d'emblée sur un outil d'analyse local est éliminatoire.
Pour un Data Scientist
« Comment valides-tu qu'un modèle est prêt pour la production ? » On attend une démarche structurée : jeu de test, validation croisée, robustesse face à des données qui évoluent, vérification des biais, et idéalement un test sur un échantillon réel.
Pour un ML Engineer
« Un modèle en production voit sa performance se dégrader nettement en quelques semaines : que fais-tu ? » On attend un réflexe MLOps : vérifier la dérive des données et du concept, envisager un réentraînement, prévoir un retour arrière. Une réponse centrée uniquement sur le débogage de code trahit un Data Scientist mal positionné.
Où trouver les bons profils data
Chaque rôle a ses viviers de sourcing privilégiés, qui ne se recoupent que partiellement. Cibler le bon canal accélère fortement le recrutement.
- Data Engineers : anciens de scale-ups à stack data mature, communautés autour des outils d'orchestration et de transformation.
- Data Scientists : profils issus de formations quantitatives reconnues, communautés de modélisation, rencontres data locales.
- ML Engineers : communautés MLOps, profils ayant industrialisé du ML à l'échelle, anciens de grandes entreprises tech.
Pour structurer une équipe technique au sens large autour de ces rôles, vous pouvez aussi consulter notre guide sur les Principal et Staff Engineers.
FAQ, Recruter dans la data
Quel rôle data recruter en premier ?
Dans la majorité des cas, le Data Engineer vient en premier. Sans infrastructure de données fiable, le travail d'un Data Scientist repose sur des fondations instables et celui d'un ML Engineer n'a rien à industrialiser. La séquence usuelle part de la donnée exploitable avant d'aller vers la modélisation puis la production.
Un Data Scientist peut-il faire le travail d'un ML Engineer ?
Rarement de façon durable. Mettre un modèle en production exige des compétences d'ingénierie logicielle, de déploiement et de surveillance qui ne sont pas le cœur du métier de Data Scientist. Confier la production à un Data Scientist fonctionne parfois au démarrage, mais devient un point de fragilité dès que la charge et les enjeux augmentent.
Faut-il un doctorat pour être Data Scientist ?
Non, ce n'est pas une condition. Une formation quantitative solide et une capacité démontrée à modéliser et à vulgariser comptent davantage que le seul diplôme. Le doctorat peut être un atout pour des sujets de recherche pointus, mais beaucoup d'excellents Data Scientists viennent d'autres parcours.
Recruter votre équipe data avec Rocket4RPO
Recruter dans la data suppose de distinguer clairement les trois rôles, de les recruter dans le bon ordre et de qualifier les candidats sur des compétences réelles plutôt que sur des intitulés. Nous aidons les scale-ups à structurer leur équipe data sans erreur de casting. Réservez un échange de 30 minutes pour cadrer votre besoin.