Workflow ETL avec un logiciel low code (équivalent Talend) pour analyser l’égalité homme/femme au sein d’une entreprise

Contexte

En France, chaque entreprise de plus 50 à 199 salariés doit fournir un rapport annuel sur l’égalité homme-femme.

Ce rapport doit faire état de certains KPIs comme : le nombre de promotion en fonction du genre, l’égalité salariale, la répartition selon les services etc…

Une problématique particulièrement sensible concernant ce projet est la compliance au RGPD. En effet, le fichier des informations sur les salariés contient de nombreuses informations personnelles telles que le nombre d’enfant, l’adresse exacte du logement. Une autre problématique est la possibilité d’identifier un individu par regroupement (ex : Salariée de 52 ans du service RH ayant 12 ans d’ancienneté), ce qui nous a contraint à effectuer plusieurs discrétisations des variables numériques comme l’âge ou l’ancienneté.

Objectifs
  • Automatiser les rapports obligatoires d’égalité homme-femme à partir des exports SIRH (Workflow KNIME)
  • Créer un export automatique des données au format CSV pour Tableau Software
  • Attention particulière au respect du RGPD dans les livrables
  • Présenter graphiquement les indicateurs clés de l’égalité homme-femme à travers un rapport pdf
Méthode

Lors de la conception du workflow on a suivi les 3 étapes du processus ETL en les rendant bien apparentes dans le Workflow

En jaune on importe les fichiers Excel directement exporté depuis le système RH.

En rouge on effectue les transformations nécessaires :
– Calcul de l’âge depuis la date de naissance puis discrétisation en tranche d’âge
– Idem pour l’ancienneté
– Calcul du salaire avec variable puis normalisation sur 35h.

En bleu on effectue tous les calculs nécessaires avec pour output un graphique automatiquement mis à jour à chaque exécution du workflow.
Pour déterminer si les inégalités sont significatives ou relèvent d’une variance normale on effectue les tests statistiques adaptés :
– Test du Chi-2
– T-Test de Student
– ANOVA
Puis on affiche le graphique adapté : boxplot, bar chart ou pie chart.

En violet on a l’exportation du jeu de données anonymisé (demande de l’entreprise).

Résultats
Ce que j’ai appris avec ce projet

C’était pour moi un premier projet utilisant un logiciel de workflow en low code.

Une fois la première prise en main passée, on comprend la montée en popularité de ce type d’outil qui permet de gagner beaucoup de temps pour créer un workflow de 0 sans avoir à réécrire les lignes de code habituelles. Toutefois, une limite apparait dès que la complexité monte, il me semble plus simple d’effectuer certaines opérations en Python directement (ce que permettent d’ailleurs certains nœuds du logiciel Knime).

J’ai également apprécié le fait de devoir modéliser sa pensée, ce qui permet en un coup d’oeil de voir le processus suivi et permet plus facilement d’expliquer à un supérieur ou à un client les opérations qui ont été effectuées (par rapport à un notebook de 1000+ lignes de codes).