Site Reliability Engineer (SRE)/ DevOps

Description du poste:

Description

Job description

Foxintelligence recherche un(une) Site Reliability Engineer /undefined.

Ta mission consiste à travailler avec le reste de l’équipe undefined / SRE et les équipes de développement afin d’assurer une disponibilité, performance, efficacité et sécurité maximale des services applicatifs, tout en fiabilisant leurs changements, assurant leur supervision et la réponse aux incidents éventuels.

A la fois stratégique et opérationnel par l’engagement dans le bon fonctionnement des services que nous proposons à la fois au grand public (Cleanfox,…) et aux entreprises (service SaaS Foxapp), ton rôle est clé dans l’accompagnement de tous les profils utilisateurs en collaboration rapprochée avec le CTO, les développeurs ainsi que les équipes Analytics.

Voici quelques chiffres de production pour donner une idée des volumes que nous traitons :

  • 20 TB opérationnels (noSQL et SQL) pour nos applications grand public et en entrée de notre flux “Big Data”
  • 400 TB pour la partie analytique
  • 1000-3000 conteneurs en parallèle en fonction des pics de charge
  • 8 à 12 millions d’appels de fonctions serverless par jour
  • 500 millions de messages de logs chaque jour

Tes responsabilités au quotidien :

Fiabiliser et automatiser la création et les changements d’infrastructure

  • Exploiter des solutions cloud pour la fourniture de services d’infrastructure : réseau, dns, calcul, stockage, intégration inter-applicative (messages), bases de données, répartition de charge, …
  • Utiliser systématiquement des outils d’Infrastructure as Code et de gestion de configuration pour la mise en place et les changements de ces services.
  • Garantir un dimensionnement des composants adapté au besoin (échelle, volumes, …), aux évolutions futures et au budget.

Gérer les outils transverses à Foxintelligence et appuyer les équipes

  • Déployer, maintenir et améliorer les outils de supervision, gestion des logs, gestion de configuration, ci/cd, orchestration de conteneurs, gestion des utilisateurs et des droits, accès réseau sécurisés.
  • Appuyer les équipes dans l’automatisation de leur processus de déploiement en utilisant les outils que nous mettons en place.
  • Répondre aux demandes ponctuelles des équipes.

Garantir le fonctionnement optimal de l’infrastructure

  • Assurer la supervision des services.
  • Résoudre les incidents de production et les incidents liés aux outils transverses.
  • Résoudre les problèmes de fond (optimisation des bases de données, recherche de causes fondamentales de ralentissement des services, propositions d’amélioration de l’architecture…).

    5 autres jobs qui pourrait t'intéresser:

    RemoteFR t'aide à trouver ton prochain job 100% remote : Crée ton profil

    Poster une annonce 100% télétravail

    Vous recrutez en télétravail?

    Ciblez des milliers de travailleurs remote en postant sur le 1er site d'annonces full-remote en France!