nettoyage et augmentation des données #2

KyllianBeguin · 2024-03-07T11:59:25Z

❓ Contexte

Après avoir exploré nos données, nous avons dressé un ensemble de constats concernant la qualité des données. De ces constats, il faut mettre en place un flux de nettoyage et d'augmentation des données, ainsi que les charger dans une base qui servira d'entrant pour l'application de visualisation.

🧐 Objectifs

Nettoyer les données
Augmenter les données
Les charger dans une base mariadb

💪 ToDo

Mettre en place une infra pour gérer la partie traitements de données
Définir les nettoyages à mettre en place
Définir les augmentations à mettre en place
Mettre en place un script de nettoyage
Mettre en place un script d'augmentation
Charger les données sortantes dans la base de données

Mendi33 · 2024-03-28T16:49:42Z

Hello.
Pour l'onglet ACTIONS, j'ai besoin du fichier export_events_14032024.xlsx (dispo sur le sharepoint)

J'ai déjà fait le nettoyage :

Filtre les évènements annulés (champ ANNULE)
Remplacement des NaN par 0 dans le niveau de caractérisation (champ NIVEAU_CARAC)
Conversion des types des champs:
- NIVEAU_CARAC (int)
- DATE (datetime)
Clean et split des string du champ COORD_GPS_RDV et création des champs:
- COORD_GPS_X
- COORD_GPS_Y
Suppression des champs inutiles:
- REFERENT_STRUCTURE
- TELEPHONE_STRUCTURE
- COURRIEL_STRUCTURE
- COORD_GPS_RDV
- ANNULE
Sauvegarde dans le fichier export_events_cleaned.csv pour utilisation dans les dashboards.

Questions :
Est-ce je met mon script à la suite dans cleaning.py ou je créer le mien ?

…augmentation des données. Ajout des fichiers dans le répertoire 'data' : export_events_14032024.xlsx export_events_cleaned.xlsx

linh-dinh-1012 · 2024-04-01T16:22:36Z

Bonjour,

Je voulais signaler une petite coquille dans le fichier data_zds_enriched.csv. Sur la ligne où ID_RELEVE == 404, le LIEU_VILLE est indiqué comme Monaco.. J'ai vérifié les coordonnées GPS fournies et elles correspondent effectivement à Monaco, et non à la France.

tgazagnes · 2024-04-03T15:25:43Z

Hello,
Pour les besoins d'ergonomie dans les filtres géographiques, j'ai créé deux nouvelles colonnes qui concatenent le numéro INSEE et le nom de l'entité géographique (ex : 13 - Bouches du Rhône). C'est plus facile de s'y retrouver lorsqu'on cherche parmi les 100 départements.
Si on valide le besoin pour tous les onglets, ça vaut le coup de l'ajouter dans les transfo amont ?

df_other["DEP_CODE_NOM"] = df_other["DEP"] + " - " + df_other["DEPARTEMENT"]

df_other["COMMUNE_CODE_NOM"] = df_other["INSEE_COM"] + " - " + df_other["commune"]

Mendi33 · 2024-04-04T14:44:39Z

Re,
Concernant l'ajout des colonnes EPCI, Bassin de vie, ... dans nos 3 fichiers (data_zds, events et structures).
Je me demandai s'il ne serait pas plus judicieux de faire une seule fonction pour le faire dans nos 3 fichiers ?

@florianeduccini
il faudrait renommer les colonnes de coordonnées GPS comme dans le fichier data_ZDS mais je ne sais pas s'il y a d'autres colonnes à prendre en compte ?

florianeduccini · 2024-04-04T17:05:46Z

Hello @Mendi33,
Si complètement !
J'attends de set up mon ordi avec mage et j'utiliserai la même brique pour les 4 pipelines :)

KyllianBeguin · 2024-04-21T09:50:43Z

J'ai corrigé quelques coquilles dans des blocks
157e576 : le nom de la colonne GPS_X est changé 2 fois, alors que la GPS_Y 0. Donc GPS_Y → latitude
f5d737a : maj des tableaux en entrés pour garder une cohérence avec l'autre pipeline cleaning. La doc est également maj pour spécifier l'ordre des tableaux

KyllianBeguin · 2024-04-21T10:30:02Z

Il semblerait qu'une colonne ne passe pas dans l'export.

J'ai filtrer sur deux colonnes seulement dans cleaning/structures/drop_useless_columns
- Mon filtre : data = data[["NOM_structure", "TYPE"]]
Le block d'export n'a pas changé
cf le 📷 SCREENSHOT
- Les autres colonnes sont présentes puisque l'erreur que nous avons n'empêche pas leur création

Les types de colonnes 👇

COLONNE          TYPE

ID_STRUCT        int64
NOM_structure    object
SOUS_TYPE        object
TYPE             object
ADRESSE          object
CODE_POSTA       float64
DEPT             object
REGION           object
DATE_INSCR       object
ACTION_RAM       int64
A1S_NB_SPO       int64
CARACT_ACT       int64
CARACT_NB_       int64
CARACT_N_1       int64
CARACT_N_2       int64
CARACT_N_3       int64
longitude        float64
latitude         float64
index_righ       int64
ID               object
COMMUNE          object
NOM_M            object
INSEE_COM        object
STATUT           object
POPULATION       int64
INSEE_CAN        object
INSEE_ARR        object
INSEE_DEP        object
INSEE_REG        object
SIREN_EPCI       object
dep              object
reg              int64
epci             object
nature_epc       object
libepci          object
departemen       object
region           object

En fait, on dirait qu'il essaye de charger un truc qui est dataframe...

KyllianBeguin · 2024-04-21T10:53:48Z

J'ai testé d'exporter les colonnes une à une et ça fonctionne.

Le code pour reproduire le résultat 👇

@data_exporter
def export_data_to_mysql(df: DataFrame, **kwargs) -> None:
  """
  Template for exporting data to a MySQL database.
  Specify your configuration settings in 'io_config.yaml'.

  Docs: https://docs.mage.ai/design/data-loading#mysql
  """
  
  table_name = "data_structures"  # Specify the name of the table to export data to
  config_path = path.join(get_repo_path(), "io_config.yaml")
  config_profile = "default"
  import pandas as pd
  from time import sleep
  for col in df.columns:
      print(col)
      with MySQL.with_config(ConfigFileLoader(config_path, config_profile)) as loader:
          loader.export(
              pd.DataFrame({col: df[col]}),
              None,
              table_name,
              index=False,  # Specifies whether to include index in exported table
              if_exists="replace",  # Specify resolution policy if table name already exists
          )
      sleep(1)
      print(" ")

En regardant le Dataframe, j'ai constaté :

La région est présente en deux colonnes REGION et region
- Même nom = potentiel impact sur l'insertion ?
- Garder une seule colonne ?
Les codes regions sont les mêmes entre INSEE_REG et reg
- Garder une seule colonne ?
Le département est présent en trois colonnes DEPT, departemen et INSEE_DEPT
- Garder une seule colonne ?
L'EPCI est présent en deux colonnes SIREN_EPCI et epci
- Garder une seule colonne ?

Vu que tu es dessus @florianeduccini, est-ce que tu gères ces observations ? Ou est-ce que j'interviens ?

florianeduccini · 2024-04-21T13:36:26Z

@KyllianBeguin : je regarde ça et je te dis dès que j'arrive à exporter :)

KyllianBeguin · 2024-04-22T16:13:49Z

To do :
Exploration_visualisation/data/export_events_14032024.xlsx:

Reformater la date en français
Faire un champs "Date affichée" (Affichage en français de la data, exemple Lundi 22 Avril 2024)

florianeduccini · 2024-04-24T08:21:04Z

@KyllianBeguin : on est d'accord que sur ta TODO c'est lorsqu'on intègrera le cleaning de l'export d'events dans mage?

florianeduccini · 2024-04-24T10:28:15Z

Hello,
Je viens de prendre en compte les modifications sur la pipeline de cleaning des structures.
Je n'ai gardé que les colonnes nécessaires.
L'export fonctionne bien.
Je n'ai par contre pas pu tester de relancer la pipeline de cleaning des ramassages parce que le code tourne pendant des heures sur Mage sans me donner d'erreurs...

KyllianBeguin · 2024-04-24T16:28:49Z

Je n'ai par contre pas pu tester de relancer la pipeline de cleaning des ramassages parce que le code tourne pendant des heures sur Mage sans me donner d'erreurs...

Est-ce sur tout le pipeline ? Ou juste sur un block ?

@KyllianBeguin : on est d'accord que sur ta TODO c'est lorsqu'on intègrera le cleaning de l'export d'events dans mage?

Exactement ! Le cleaning de l'export est dans le backlog, on anticipe juste les traitement à appliquer 😃

florianeduccini · 2024-04-24T16:31:11Z

Je n'ai par contre pas pu tester de relancer la pipeline de cleaning des ramassages parce que le code tourne pendant des heures sur Mage sans me donner d'erreurs...

Est-ce sur tout le pipeline ? Ou juste sur un block ?

Les deux, j'ai lancé au global puis juste un block qui aurait du mettre 10 secondes à tourner et au bout de 10 minutes j'ai du couper.

KyllianBeguin · 2024-04-24T16:34:44Z

Ok, pcq y les blocks qui traitent les données géographiques sont longs à se lancer ^^

KyllianBeguin · 2024-04-24T18:16:35Z

Histoire d'anticiper la migration des sources de données de l'appli, je vous propose de faire le listing des sources actuelle et le mapping vers les table de la bdd.
Cela nous permettra aussi d'avoir une idée de ce qui doit faire tourner l'appli

SCRIPT-STAGING	FILE-BRANCH	FILE-PATH	FILE-NAME
🏠	2	`/Exploration_visualisation/data/`	`data_zds_enriched.csv`
🏠	4	`/Exploration_visualisation/data/`	`structures_export_cleaned.csv`
🏠	2	`/Exploration_visualisation/data/`	`data_releve_nb_dechet.csv`
🏠	2	`/Exploration_visualisation/data/`	`export_events_cleaned.csv`
🔎	1	`/Exploration_visualisation/data/`	`dict_dechet_groupe_materiau.csv`
🔥	2	`/Exploration_visualisation/data/`	`data_releve_nb_dechet.csv`
🔥	2	`/Exploration_visualisation/data/`	`data_zds_enriched.csv`
🔥	1	`/Exploration_visualisation/data/`	`regions-avec-outre-mer.geojson`
🔥	1	`/Exploration_visualisation/data/`	`departements-avec-outre-mer.geojson`
🔥	1	`/Exploration_visualisation/data/`	`communes-avec-outre-mer.geojson`
🔥	1	`/Exploration_visualisation/data/`	`communes-avec-outre-mer.geojson`
🔥	1	`/Exploration_visualisation/data/`	`releves_corrects_surf_lineaire.xlsx`
🔥	1	`/Exploration_visualisation/data/`	`export_structures_29022024.xlsx`
🔭	-	-	-
👊	-	-	-

Les scripts sont ceux du staging :
🏠 home.py
👊 actions.py
🔎 data.py
🔥 hotspots.py
🔭 structures.py

KyllianBeguin · 2024-04-25T10:31:44Z

Vu dans la PR #20 : Il faudra faire migrer la fonction process_data dans le flux pour alléger l'appli

KyllianBeguin · 2024-05-25T09:42:56Z

Pour s'assurer que tous les fichiers sont bien migrés, je vous propose ce tableau :

FILE-NAME	PIPELINE-NAME	TABLE-NAME	IS-COMPLETE
`structures_export_cleaned.csv`	❌	❌	❌
`export_events_cleaned.csv`	❌	❌	❌
`dict_dechet_groupe_materiau.csv`	❌	❌	❌
`data_releve_nb_dechet.csv`	`cleaning`	`(data_enriched, nb_dechets)`	❌
`data_zds_enriched.csv`	`cleaning`	`(data_enriched, nb_dechets)`	❌
`regions-avec-outre-mer.geojson`	❌	❌	❌
`departements-avec-outre-mer.geojson`	❌	❌	❌
`communes-avec-outre-mer.geojson`	❌	❌	❌
`releves_corrects_surf_lineaire.xlsx`	❌	❌	❌
`export_structures_29022024.xlsx`	❌	❌	❌

florianeduccini · 2024-05-25T09:52:54Z

Hey !
Super oui on sera plus au clair :)
Tu es sûr qu'il faille structures_export_cleaned ET export_structures_29022024?
Et sinon je suis en train d'essayer de mettre les données géographiques en base, ça remplacera régions_avec_outre_er, departements_xx et communes_xx

KyllianBeguin · 2024-05-25T09:57:36Z

Tu es sûr qu'il faille structures_export_cleaned ET export_structures_29022024?

J'ai repris le tableau de référencement des jeux de données présents dans l'appli, qui comprends les deux fichiers.
En les laissant, on va pouvoir plus facilement changer les deux fichiers dans l'appli en mettant la même table d'export structure :)

KyllianBeguin · 2024-10-14T16:50:33Z

Hello 👋 je déterre cette issue !
Je vais avancer sur le sujet des traitement de données, en se focalisant sur les données à traiter en priorité pour MerTerre.
L''idée est d'avancer en tandem avec ce qui est fait côté #28

KyllianBeguin · 2024-12-17T18:05:07Z

Salut, j'ai upgrade la version de geopandas (0.14.4) dans la #37 pour mage. La version 0.14.3 a des problèmes avec fiona, une bibliothèque utilisée par geopandas. ~~N'hésitez pas à faire aussi l'upgrade dans le requirements.txt :)~~

Edit : on est en 1.0.1 👇

KyllianBeguin · 2025-01-05T10:50:00Z

Salut, j'ai mis à jour la structure du repo. Il faut maintenant travailler directement dans le dossier zds.
Pour lancer uniquement mage, la base de donnée et adminer : docker compose -f docker-compose-dev.yml up -d --build mage db adminer
🔴 Attention : il faut setup les mots de passe. Il faut créer deux fichiers .mysql_root_password et .mysql_merterre_password dans le dossier zds/backend/db

KyllianBeguin · 2025-01-12T10:43:06Z

Salut, la version 0.14.4 de geopandas fait planter le block cleaning/geo_dataframe/make_geo_df du pipeline cleaning.
Pour corriger cela, j'ai upgrade geopandas en 1.0.1.

KyllianBeguin self-assigned this Mar 7, 2024

This comment was marked as outdated.

Sign in to view

KyllianBeguin assigned florianeduccini Mar 7, 2024

KyllianBeguin added nettoyage Une bonne donnée est une donnée propre ! augmentation De la data sur de la data ! labels Mar 7, 2024

This comment was marked as outdated.

Sign in to view

This comment was marked as off-topic.

Sign in to view

KyllianBeguin assigned tgazagnes Mar 22, 2024

This comment was marked as off-topic.

Sign in to view

This comment was marked as resolved.

Sign in to view

This comment was marked as outdated.

Sign in to view

This comment was marked as off-topic.

Sign in to view

This comment was marked as resolved.

Sign in to view

Mendi33 mentioned this issue Mar 31, 2024

Cleaning events #9

Closed

Mendi33 added a commit that referenced this issue Mar 31, 2024

Ajout du script "cleaning_events.py", suite à Issues #2 nettoyage et …

28cbb80

…augmentation des données. Ajout des fichiers dans le répertoire 'data' : export_events_14032024.xlsx export_events_cleaned.xlsx

This comment was marked as resolved.

Sign in to view

This comment was marked as off-topic.

Sign in to view

KyllianBeguin mentioned this issue Jun 18, 2024

Ajout données spots adoptés #25

Open

KyllianBeguin mentioned this issue Dec 8, 2024

[🚧 FEAT] Connexion back et front #37

Open

KyllianBeguin assigned Pedroscsilva Dec 10, 2024

nettoyage et augmentation des données #2

nettoyage et augmentation des données #2

Comments

KyllianBeguin commented Mar 7, 2024 • edited Loading

❓ Contexte

🧐 Objectifs

💪 ToDo

This comment was marked as outdated.

This comment was marked as outdated.

This comment was marked as outdated.

This comment was marked as outdated.

This comment was marked as outdated.

This comment was marked as off-topic.

This comment was marked as off-topic.

This comment was marked as off-topic.

This comment was marked as off-topic.

This comment was marked as resolved.

This comment was marked as outdated.

This comment was marked as off-topic.

Mendi33 commented Mar 28, 2024 • edited Loading

This comment was marked as resolved.

This comment was marked as resolved.

linh-dinh-1012 commented Apr 1, 2024

tgazagnes commented Apr 3, 2024 • edited Loading

Mendi33 commented Apr 4, 2024

florianeduccini commented Apr 4, 2024

This comment was marked as resolved.

This comment was marked as off-topic.

KyllianBeguin commented Apr 21, 2024

KyllianBeguin commented Apr 21, 2024 • edited Loading

KyllianBeguin commented Apr 21, 2024 • edited Loading

florianeduccini commented Apr 21, 2024

KyllianBeguin commented Apr 22, 2024 • edited Loading

florianeduccini commented Apr 24, 2024

florianeduccini commented Apr 24, 2024

KyllianBeguin commented Apr 24, 2024

florianeduccini commented Apr 24, 2024

KyllianBeguin commented Apr 24, 2024

KyllianBeguin commented Apr 24, 2024 • edited Loading

KyllianBeguin commented Apr 25, 2024

KyllianBeguin commented May 25, 2024 • edited by florianeduccini Loading

florianeduccini commented May 25, 2024

KyllianBeguin commented May 25, 2024

KyllianBeguin commented Oct 14, 2024

KyllianBeguin commented Dec 17, 2024 • edited Loading

KyllianBeguin commented Jan 5, 2025

KyllianBeguin commented Jan 12, 2025

KyllianBeguin commented Mar 7, 2024 •

edited

Loading

Mendi33 commented Mar 28, 2024 •

edited

Loading

tgazagnes commented Apr 3, 2024 •

edited

Loading

KyllianBeguin commented Apr 21, 2024 •

edited

Loading

KyllianBeguin commented Apr 21, 2024 •

edited

Loading

KyllianBeguin commented Apr 22, 2024 •

edited

Loading

KyllianBeguin commented Apr 24, 2024 •

edited

Loading

KyllianBeguin commented May 25, 2024 •

edited by florianeduccini

Loading

KyllianBeguin commented Dec 17, 2024 •

edited

Loading