Concevoir, développer et maintenir des pipelines de données automatisés (Apache Airflow, Bash)
Implémenter des solutions de traitement avec Python, PySpark et travailler dans l’environnement Databricks
Intégrer des données provenant de sources variées (API, bases relationnelles, fichiers) dans des environnements infonuagiques
Assurer la qualité, la gouvernance et la sécurité des données et prendre en charge les projets liés (catalogage, monitoring, audit)
Fait figure de point de repère organisationnel dans son secteur d’activités et collabore avec les équipes TI et affaires pour comprendre les besoins, proposer des solutions adaptées et produire des jeux de données fiables et performants
Documenter les processus, architectures et bonnes pratiques
Participer aux revues de code, à l’amélioration continue et à l’intégration continue (CI/CD)
Connaissance des architectures Data Lake, couches sémantiques et principes de gouvernance des données
Solide expérience en Python (POO, bibliothèques de traitement), PySpark et concepts de traitement distribué
Expérience pratique avec Databricks (workflow, bundle), Delta Lake, Spark SQL et orchestration avec Apache Airflow
Maîtriser les environnements Unix/Linux, Bash et familiarité avec Git, DevOps et CI/CD
Posséder un diplôme en informatique, génie logiciel ou domaine connexe
Avoir cumulé 10 ans d'expérience directement liée au poste
Expérience avec DBT (Data Build Tool) et bases de données relationnelles/non relationnelles, certaine expérience avec Databricks Unity Catalog et des environnements cloud (Azure, AWS, GCP) ainsi que des principes de sécurité et de gouvernance des données (atout)
Maîtriser le français et l’anglais, tant à l’oral qu’à l’écrit. Un niveau de connaissance fonctionnel de l’anglais est nécessaire afin de communiquer à l’occasion avec des fournisseurs et des partenaires situés à l'extérieur du Québec.