The Company
Humanitas is a young, award-winning innovator startup based in Montreal, specializing in emergency response and resilient technologies. Working with a list of world-class industry leaders and researchers, our team specializes in advanced telecom, simulation, visualization, cybersecurity, swarming robotics, edge computing, and more. Our multidisciplinary team also endeavors to universalize our technology and expand their applications to routine use cases beyond edge scenarios.
We are an ambitious group of young people who aim to contribute to a little change in the world by creating IT solutions that help people globally, especially when they need it most. Compassion is at the core of our business, and our collaboration is driven by our desire to challenge our limits and explore our potential.
Come and join our team at the forefront of cutting-edge technology, specializing in:
- Simulations: Physics and telecom simulations for digital twin environments
- AI Agent Training: Training AI from sensor data in both real-world and digital environments
About the Role
We're seeking an CloudOps-Senior-level System Administrator to join our AI team. You'll work with a sophisticated production environment supporting our AI Factory operations, including private cloud infrastructure and container orchestration platforms. This role offers exceptional learning opportunities in enterprise-grade infrastructure while contributing to cutting-edge AI and simulation research.
Our Infrastructure
Our infrastructure represents the intersection of academic research and enterprise production systems. At the core sits a multi-node private cloud built on OpenStack, providing GPU-accelerated compute resources for our AI research teams. This integrates seamlessly with our Kubernetes container platform, where microservices and applications run at scale to support everything from drone simulations to telecommunications research.
You'll work with distributed storage systems that handle massive simulation datasets and machine learning artifacts, backed by comprehensive monitoring and observability stacks that ensure 24/7 visibility into system health. Our ML operations platform manages experiment tracking and model lifecycle, while our data platform processes streaming telemetry from various research projects.
Network services tie everything together, secured by enterprise identity management systems. This environment evolves rapidly as research needs change, requiring administrators who can adapt quickly and think systematically about complex, interconnected systems.
Key Responsibilities
Infrastructure Operations
- Monitor and maintain private cloud and container platforms
- Manage distributed storage systems and backup procedures
- Support GPU infrastructure for ML workloads
- Troubleshoot network services and connectivity issues
- Perform system updates and security patching
- Deploy additional services
Platform Support
- Support multi-user environments
- Assist with container deployment and management
- Monitor ML and data platform services
- Maintain CI/CD pipelines and automation tools
Documentation & Process
- Document procedures and infrastructure changes
- Document common operational tasks
- Participate in incident response and post-mortems
- Assist with user security onboarding
Required Qualifications : Essential Technical Skills
System Administration: The candidate has a solid experience with Linux systems, comfortable with scripting (bash, Python, or similar), system tools, and troubleshooting. He/She needs hands-on experience with Docker containers and a good understanding of networking concepts (e.g. TCP/IP, DNS, DHCP)
Version Control: Proficient with Git and collaborative development workflows
System Monitoring: Experience with log analysis and performance monitoring, understanding of filesystems, mounting, permissions, security basics (user management, SSH, firewall concepts, Oauth/SSO)
Backup/Recovery: Understanding of backup strategies and disaster recovery
Transverse Skills
Mindset: Strong analytical and troubleshooting abilities, ability to work effectively in a small, fast-paced team, eager to learn new technologies and adapt quickly.
Language: English and French. Or at least on a level sufficient for professional operations.
Additional Qualification :
Cloud & Orchestration
Basic understanding of the Kubernetes and/or OpenStack would be a plus, as would experience working with private/public cloud platforms. Understanding of automation tools (e.g. Ansible, Terraform). Understanding of monitoring concepts and observability stacks.
Experience with automation and deployment pipelines, database operations.
Familiarity with ML workflows and experiment tracking for MLOps would be a solid plus.
Work environment
This role offers professional growth opportunities rarely found in startups. You'll receive direct mentoring from experienced administrators, who will introduce you to enterprise-grade infrastructure. The cutting-edge technology stack includes OpenStack, Kubernetes, and AI/ML platforms that power breakthrough research across multiple domains.
Our collaborative environment means you'll work directly with drone engineers, telecommunications specialists, and AI researchers through daily standup meetings. This cross-functional exposure gives you unique insight into how infrastructure enables real-world innovation, and your project involvement will directly contribute to research that pushes the boundaries of drone swarm intelligence, telecommunications systems, and AI agent training.
You'll start by learning our private cloud and container platforms under close supervision. This period focuses on understanding our monitoring and alerting systems, mastering operational procedures, and building confidence with our complex infrastructure stack. You'll gain hands-on experience with GPU infrastructure and begin supporting multi-user environments alongside our clients and your colleagues.
You'll then be responsible for routine maintenance, monitoring tasks, and incident response. You'll develop specialized expertise in MLOps platform administration, take full ownership of backup procedures and system updates, and lead troubleshooting efforts for your assigned systems. As a key player in Humanitas, you'll be essential to maintaining our entire enterprise-grade environment, with each team member handling critical systems that keep our research operations running.
We support your growth!
While our infrastructure complexity presents a significant learning curve, we've designed comprehensive documentation and mentorship specifically to support your success. You'll gain hands-on experience with production-grade distributed systems, container orchestration, and GPU infrastructure - skills that are in high demand across the technology industry.
This research environment offers unique opportunities beyond traditional system administration. You'll be supporting cutting-edge AI research, drone swarm simulations, and telecommunications development that pushes technological boundaries. As you develop expertise with our infrastructure, there may be opportunities for research contributions - whether through optimizing ML workflows, contributing to infrastructure automation research, or co-authoring papers or patents.
==============================================
L’Entreprise
Humanitas est une jeune startup innovante et primée basée à Montréal, spécialisée dans les technologies de réponse d’urgence et de résilience. En collaboration avec des leaders industriels et des chercheurs de renommée mondiale, notre équipe se spécialise dans les télécommunications avancées, la simulation, la visualisation, la cybersécurité, la robotique en essaim, l’informatique en périphérie (edge computing), et plus encore.
Notre équipe pluridisciplinaire s’efforce également d’universaliser nos technologies et d’étendre leurs applications à des cas d’usage quotidiens, au-delà des seuls scénarios extrêmes.
Nous sommes un groupe ambitieux de jeunes professionnels qui souhaitent contribuer à changer un peu le monde en créant des solutions informatiques qui aident les gens, partout dans le monde — en particulier lorsqu’ils en ont le plus besoin.
La compassion est au cœur de notre entreprise, et notre collaboration est animée par le désir de repousser nos limites et d’explorer notre potentiel.
Rejoignez notre équipe à la pointe de la technologie, spécialisée dans :
- Simulations : simulations physiques et télécoms pour environnements jumeaux numériques
- Formation d’agents IA : entraînement d’intelligences artificielles à partir de données capteurs dans des environnements réels et numériques
À propos du poste
Nous recherchons un CloudOps - Administrateur système débutant pour rejoindre notre équipe Infrastructure & IA.
Vous travaillerez dans un environnement de production sophistiqué soutenant nos opérations d’AI Factory, incluant une infrastructure de cloud privé et des plateformes d’orchestration de conteneurs.
Ce poste offre des opportunités d’apprentissage exceptionnelles sur des infrastructures de niveau entreprise, tout en contribuant à la recherche de pointe en intelligence artificielle et en simulation.
Notre infrastructure
Notre infrastructure se situe à l’intersection de la recherche académique et des systèmes de production d’entreprise.
Au cœur de celle-ci se trouve un cloud privé multi-nœuds basé sur OpenStack, offrant des ressources de calcul accélérées par GPU à nos équipes de recherche en IA.
Celui-ci s’intègre parfaitement à notre plateforme de conteneurs Kubernetes, où les microservices et applications fonctionnent à grande échelle pour soutenir aussi bien les simulations de drones que la recherche en télécommunications.
Vous travaillerez avec des systèmes de stockage distribués gérant d’immenses ensembles de données de simulation et des artefacts d’apprentissage automatique, soutenus par des outils complets de supervision et d’observabilité assurant une visibilité 24/7 sur la santé du système.
Notre plateforme MLOps gère le suivi des expériences et le cycle de vie des modèles, tandis que notre plateforme de données traite la télémétrie en continu issue de divers projets de recherche.
Les services réseau relient l’ensemble, sécurisés par des systèmes de gestion d’identité d’entreprise. Cet environnement évolue rapidement au gré des besoins de la recherche, nécessitant des administrateurs capables de s’adapter vite et de penser de manière systémique à des systèmes complexes et interconnectés.
Responsabilités principales : Opérations d’infrastructure
- Surveiller et maintenir les plateformes de cloud privé et de conteneurs
- Gérer les systèmes de stockage distribués et les procédures de sauvegarde
- Soutenir l’infrastructure GPU pour les charges de travail ML
- Résoudre les problèmes de services réseau et de connectivité
- Effectuer les mises à jour systèmes et correctifs de sécurité
- Déployer de nouveaux services
Support de plateforme
- Gérer des environnements multi-utilisateurs
- Assister au déploiement et à la gestion de conteneurs
- Surveiller les services de plateforme ML et de données
- Maintenir les pipelines CI/CD et les outils d’automatisation
Documentation & Processus
- Documenter les procédures et modifications d’infrastructure
- Documenter les tâches opérationnelles courantes
- Participer aux réponses aux incidents et aux bilans post-mortem
- Aider à l’intégration des utilisateurs et à la sécurité
Qualifications requises : Compétences techniques essentielles
- Administration système : expérience solide sous Linux, à l’aise avec le scripting (bash, Python ou similaire), les outils systèmes et le dépannage.
Expérience pratique avec les conteneurs Docker et bonne compréhension des concepts réseaux (TCP/IP, DNS, DHCP).
- Contrôle de version : maîtrise de Git et des flux de travail collaboratifs.
- Supervision système : expérience en analyse de journaux et surveillance de performance, compréhension des systèmes de fichiers, montages, permissions, bases de la sécurité (gestion des utilisateurs, SSH, pare-feu, OAuth/SSO).
- Sauvegarde / Restauration : connaissance des stratégies de sauvegarde et de reprise après sinistre.
Compétences transversales
- Esprit analytique et solides compétences en résolution de problèmes.
- Capacité à travailler efficacement dans une petite équipe dynamique.
- Envie d’apprendre de nouvelles technologies et de s’adapter rapidement.
- Langues : maîtrise de l’anglais et du français (au moins à un niveau professionnel opérationnel).
Qualifications supplémentairesCloud & Orchestration
- Compréhension de base de Kubernetes et/ou OpenStack.
- Expérience avec des plateformes de cloud privé/public souhaitable.
- Connaissance d’outils d’automatisation (Ansible, Terraform).
- Compréhension des concepts de supervision et d’observabilité.
- Expérience avec les pipelines d’automatisation et de déploiement, les opérations de bases de données.
- Familiarité avec les flux de travail ML et le suivi d’expériences MLOps est un atout majeur.
Environnement de travail
Ce poste offre des opportunités de croissance professionnelle.
Vous bénéficierez d’un mentorat direct d’administrateurs expérimentés qui vous initieront à des infrastructures de niveau entreprise.
La pile technologique de pointe comprend OpenStack, Kubernetes et des plateformes IA/ML alimentant des recherches révolutionnaires dans plusieurs domaines.
Dans notre environnement collaboratif, vous travaillerez directement avec des ingénieurs en drones, des spécialistes en télécommunications et des chercheurs en IA lors de réunions quotidiennes.
Cette exposition interdisciplinaire vous offrira une compréhension unique de la manière dont l’infrastructure soutient l’innovation concrète, et votre travail contribuera directement à la recherche qui repousse les limites de l’intelligence d’essaim, des systèmes télécoms et de la formation d’agents IA.
Vous commencerez par apprendre nos plateformes de cloud privé et de conteneurs sous supervision étroite. Cette période sera consacrée à la compréhension de nos systèmes de surveillance et d’alerte, à la maîtrise des procédures opérationnelles et à la familiarisation avec notre pile d’infrastructure complexe.
Vous acquerrez une expérience pratique avec l’infrastructure GPU et commencerez à soutenir des environnements multi-utilisateurs aux côtés de nos clients et collègues.
Par la suite, vous serez responsable des tâches de maintenance, de surveillance et de réponse aux incidents.
Vous développerez une expertise spécialisée dans l’administration des plateformes MLOps, prendrez en charge les procédures de sauvegarde et de mise à jour, et dirigerez les efforts de dépannage pour vos systèmes assignés.
En tant que membre clé de Humanitas, vous jouerez un rôle essentiel dans le maintien de notre environnement complet de niveau entreprise, chaque membre de l’équipe gérant des systèmes critiques essentiels à nos opérations de recherche.
Exigences de candidature : démonstration technique
Veuillez fournir votre CV avec votre candidature.
N’hésitez pas à inclure des ressources sur vos projets antérieurs (répertoires GitHub, thèse universitaire, etc.), ainsi que des lettres de référence ou les coordonnées d’anciens employeurs ou professeurs ayant supervisé votre travail.
Processus d’entretien
- Entretien introductif : discussion sur le poste et l’environnement de travail
- Rencontre avec l’équipe Infrastructure & IA
- Entretien de suivi : retour et questions complémentaires
Notes importantes
Bien que la complexité de notre infrastructure représente un défi d’apprentissage important, nous avons conçu une documentation complète et un programme de mentorat pour soutenir votre réussite.
Vous acquerrez une expérience pratique avec des systèmes distribués de production, l’orchestration de conteneurs et l’infrastructure GPU — des compétences très recherchées dans le secteur technologique.
Cet environnement de recherche offre des opportunités uniques au-delà de l’administration système traditionnelle :
vous soutiendrez des recherches de pointe en IA, en simulation d’essaims de drones et en télécommunications avancées.
À mesure que vous développerez votre expertise, vous pourrez également contribuer à la recherche — que ce soit par l’optimisation des flux de travail ML, la recherche en automatisation d’infrastructure, ou même la co-rédaction d’articles ou de brevets.
Job Types: Full-time, Permanent
Pay: $70,000.00-$115,000.00 per year
Benefits:
- Company events
- Dental care
- Discounted or free food
- Extended health care
- Flexible schedule
- Language training provided
- On-site parking
- Vision care
Ability to commute/relocate:
- Montréal, QC H2W 1Z3: reliably commute or plan to relocate before starting work (required)
Education:
- Master's Degree (required)
Experience:
- IT infrastructure: 5 years (required)
Location:
- Montréal, QC H2W 1Z3 (required)
Work Location: Hybrid remote in Montréal, QC H2W 1Z3