Ingénieur fiabilité des sites // Site Reliability Engineer

Plusgrade - Montréal, QC (il y a 30+ jours)

Postuler dès maintenant

Plusgrade est le fournisseur leader sur le marché des solutions de surclassement, un segment-clé dans le secteur à croissance rapide des revenus auxiliaires et de la commercialisation dans l’industrie du voyage. En tête du marché dans le secteur de la vente incitative, Plusgrade crée de nouvelles opportunités économiques représentant des centaines de milliards de dollars et fournit ses services aux principaux fournisseurs de voyages dans plus de 50 pays. Récompensée par le prix prestigieux Leadership Technologie de Deloitte pour sa position de leader dans son secteur, Plusgrade est régulièrement reconnue au palmarès nord-américain Deloitte Technology Fast 50TM et au palmarès canadien Deloitte Technology Fast 500 TM.

Plusgrade est implantée au Canada (Montréal), aux États-Unis (New-York) et à Singapour.

Le rôle:
Nous sommes à la recherche d’un Ingénieur de fiabilité des sites pour travailler avec nous afin de créer de nouveaux produits exceptionnels pour les compagnies aériennes et les voyageurs. L’équipe d’ingénieurs fiabilité des sites est en charge de la disponibilité, de la latence, des performances, de l’efficacité, de la gestion des changements, de la surveillance, des interventions d’urgence et de la planification des capacités. L’équipe travaillera au moins 50% du temps en prévention et au plus 50% du temps en support du SaaS Plusgrade. Ce rôle sera basé à Montréal et fera partie de notre organisation d’ingénierie de produits.

Nous croyons fermement qu’il existe de nombreuses opportunités stimulantes dans la technologie et dans l’industrie du voyage, si vous êtes enthousiastes à l’idée de relever ces défis avec nous, nous souhaitons vous rencontrer. En tant que SRE votre semaine typique comprendra les tâches suivantes:

Responsabilités:
Faire l’analyse et examiner les applications actuelles dans le but de déceler les points faibles en terme de qualité.
S’associer aux ingénieurs pour mener les changements architecturaux nécessaires.
Contribuer à soutenir la rotation pour une couverture 24/7 au sein de l'organisation d’ingénierie.
Contribuer à influencer le budget de la dette technique de l’ingénierie afin de respecter les meilleures pratiques du SRE.
Collaborer avec l’équipe d’ingénierie de plateforme afin d’apporter des améliorations à notre plateforme interne.
Aider à améliorer l’ensemble du cycle de vie de la préparation opérationnelle.

Tous nos SRE travaillent au sein d’une équipe multidisciplinaire d’ingénieurs logiciel et d’ingénieurs plateforme ayant à cœur d’améliorer les produits Plusgrade.

Qualifications

Vous possédez une bonne connaissance des systèmes distribués.
Connaissances approfondies des meilleures pratiques de surveillance et d’alerte.
Posséder une expérience de travail avec un cloud public, à savoir AWS.
Posséder une expérience de travail avec des outils d’infrastructure tels que Terraform, et Docker.
Posséder une expérience de travail avec une application de surveillance avec APM, à savoir Datadog.
Expérience de 3 ans minimum dans la création d’applications webs avec Java.
Connaissances approfondies de la JVM et de son diagnostic.
Plus de 2 ans d’expérience sur des projets comprenant des plongées techniques approfondies et le dépannage de la production dans les domaines des systèmes distribués, du code, de la mise en réseau, du stockage et des systèmes d’exploitation.
Plus de 2 ans d’expérience en support logiciel, en fiabilité ou en ingénierie des opérations dans un environnement hautement axé sur le client.
Être titulaire d’un baccalauréat en informatique/ingénierie ou une expérience équivalente.

Posséder une expérience dans le secteur de l’industrie aérienne et/ou être familier avec la technologie du voyage serait un atout.

Plusgrade is an award-winning technology company at the forefront of ancillary revenue and merchandising in the global travel industry. As the market-leading provider in its category of upsell solutions, Plusgrade is generating billions of dollars of new revenue opportunity and powering leading travel suppliers in more than 50 countries. Honored with the prestigious Deloitte Technology Leadership award as a global leader in its sector, Plusgrade is also consistently recognized as one of North America’s fastest-growing technology companies in the annual Deloitte Technology Fast 50™, Fast 500™ awards and recently winner of the exclusive Enterprise Fast 15 that celebrates top 15 companies for their leadership, innovation, and rapid growth in the Canadian and North American technology sectors.

Plusgrade is headquartered in Montreal with offices in New York and Singapore.

The Role:
We are seeking an SRE to work with us to build amazing new products for airlines and travelers. The SRE Team is responsible for availability, latency, performance, efficiency, change management, monitoring, emergency response, and capacity planning. The SRE team will work at least 50% of the time preventing issue and at most 50% supporting the Plusgrade SaaS. This role will be located in our Montreal headquarters and be part of our product engineering organization.

We firmly believe there are many challenging opportunities in travel technology, if you are excited about helping us solve some of them, we would like to meet you.

As an SRE your typical week would consist of:
Responsibilities:
Analyze and investigate current applications for reliability weaknesses
Peer with engineering to drive architecture change for reliability
Contribute to support rotation for 24/7 coverage within the engineering organization
Help leverage the Technical Debt budget of engineering to drive SRE best practices
Collaborate with Platform Engineering team to improve our internal platform
Help improve the whole lifecycle of operational readiness

We empower all of our SRE with a cross-functional team of Software Engineer, Platform Engineer motivated on improving the Plusgrade products.

Qualifications:
Strong experience working with distributed systems
Advanced understanding of monitoring and alerting best practices
Prior experience working with public cloud, namely AWS
Prior experience working with infrastructure tools like Terraform, and Docker
Prior experience monitoring application with APM, namely Datadog
You have been building web applications professionally for 3+ years with Java
Advanced understanding of the JVM and troubleshooting
2+ years experience on projects that included technical deep-dives and production troubleshooting in the areas of: distributed systems, code, networking, storage, and operating systems.
2+ years of software support, reliability, or operations engineering experience in a highly customer-focused environment
B.S. in Computer Science, Engineering or equivalent experience

Extra bonus points for experience in the Airline industry and familiarity with travel technology.