Le Site Reliability Engineer (SRE) applique des méthodes d'ingénierie logicielle aux problèmes d'exploitation : il automatise pour garantir la fiabilité, la disponibilité et la performance des systèmes à l'échelle. C'est l'un des profils les plus difficiles à recruter en France, car les meilleurs ne candidatent quasiment jamais. Ce guide explique le métier, les compétences clés, la différence avec le DevOps, comment sourcer ces profils et les questions d'entretien qui révèlent leur niveau.
SRE : un métier né chez Google
Le terme Site Reliability Engineering a été créé par Ben Treynor Sloss chez Google au début des années 2000, avec une idée fondatrice : confier les opérations à des ingénieurs qui automatisent plutôt qu'à des équipes qui réagissent manuellement. La discipline a été formalisée dans le Site Reliability Engineering de Google (O'Reilly), aujourd'hui référence du domaine. En France, le vivier de SRE seniors reste étroit : la plupart sont concentrés dans un petit nombre de scale-ups et de grands comptes, ce qui allonge fortement les délais de recrutement.
Les 4 compétences clés d'un bon SRE
Un SRE solide combine quatre domaines. Un candidat fort sur l'infrastructure mais faible en code n'est généralement pas un SRE : c'est un profil ops.
- Programmation, Go, Python, parfois Rust. Il doit savoir écrire un vrai outil interne, pas seulement des scripts.
- Systèmes, Linux en profondeur, réseau TCP/IP, systèmes distribués, tuning.
- Observabilité, métriques (Prometheus), logs, traces, et surtout la maîtrise des SLI / SLO / error budget.
- Gestion d'incidents, postmortems sans blâme, runbooks, chaos engineering.
SRE vs DevOps : quelle différence ?
La confusion est fréquente, et beaucoup de fiches de poste « SRE » décrivent en réalité du DevOps. La distinction :
- DevOps, une culture de collaboration entre développement et opérations : CI/CD, infrastructure as code, automatisation.
- SRE, une implémentation concrète et mesurée de cette culture, avec priorité à la fiabilité : objectifs de service (SLO), budget d'erreur, discipline d'incident.
En pratique, un SRE est souvent un profil ops ou DevOps expérimenté qui a poussé la rigueur jusqu'aux SLI/SLO. Tous les SRE savent faire du DevOps ; l'inverse n'est pas vrai.
Pourquoi le recrutement d'un SRE est si difficile
Les bons SRE postulent rarement : ils sont cooptés depuis d'autres scale-ups ou restent en poste dans leur entreprise actuelle. Une recherche LinkedIn sur le mot-clé « SRE » remonte surtout des profils DevOps requalifiés. Les méthodes qui fonctionnent vraiment relèvent du sourcing communautaire :
- Conférences spécialisées, SREcon, KubeCon et les meetups d'observabilité : les intervenants sont une mine de profils qualifiés.
- Contributeurs open source, autour des outils phares de l'écosystème (Prometheus, Grafana, Kubernetes).
- Cooptation, la communauté SRE est petite et se connaît ; un SRE déjà en poste est votre meilleur sourceur.
Entretien SRE : 3 questions révélatrices
- « Raconte-moi ton dernier postmortem, que s'est-il passé ? » Teste la maturité face aux incidents et la culture sans blâme.
- « Comment définirais-tu un SLO pour un service de login ? » Doit parler disponibilité, latence et budget d'erreur, pas généralités.
- « Le CPU d'un pod Kubernetes sature : que fais-tu ? » On attend une démarche d'observation méthodique, pas une solution magique.
Combien coûte un SRE en France ?
La rémunération d'un SRE intègre souvent une prime d'astreinte (on-call), à prendre en compte dans le package global. Les fourchettes sont indicatives, constatées sur le marché français, et progressent du profil confirmé au Principal ; les profils issus des grandes entreprises tech se situent en haut de fourchette. Au-delà du salaire, le coût caché d'un poste SRE non pourvu se mesure en risque d'indisponibilité et en charge d'astreinte reportée sur le reste de l'équipe.
FAQ, Recruter un SRE
Un DevOps peut-il devenir SRE ?
Oui, c'est même le parcours le plus courant. La marche à franchir est la discipline de mesure : passer d'une logique d'automatisation à une logique d'objectifs de service (SLO) et de budget d'erreur.
Faut-il un SRE dédié ou mutualiser avec l'équipe ?
En dessous d'un certain volume de trafic, la fiabilité peut être portée par l'équipe d'ingénierie elle-même. Un SRE dédié se justifie quand l'indisponibilité a un coût business direct et que la charge d'astreinte devient significative.
SRE et Platform Engineer, est-ce la même chose ?
Les rôles se recoupent mais diffèrent : le Platform Engineer construit les outils internes et l'expérience développeur, le SRE garantit la fiabilité en production. Dans les petites équipes, une même personne porte souvent les deux.
Sourcer votre SRE
Recruter un SRE demande une approche directe et une qualification technique sérieuse. Un Talent Acquisition senior spécialisé tech sait où chercher et comment qualifier ces profils rares. Parlons de votre stack et de vos enjeux de fiabilité.