-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
nettoyage et augmentation des données #2
Comments
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as off-topic.
This comment was marked as resolved.
This comment was marked as resolved.
This comment was marked as outdated.
This comment was marked as outdated.
This comment was marked as off-topic.
This comment was marked as off-topic.
Hello. J'ai déjà fait le nettoyage :
Questions : |
This comment was marked as resolved.
This comment was marked as resolved.
…augmentation des données. Ajout des fichiers dans le répertoire 'data' : export_events_14032024.xlsx export_events_cleaned.xlsx
This comment was marked as resolved.
This comment was marked as resolved.
Bonjour, Je voulais signaler une petite coquille dans le fichier data_zds_enriched.csv. Sur la ligne où |
Hello,
|
Re, @florianeduccini |
Hello @Mendi33, |
This comment was marked as resolved.
This comment was marked as resolved.
This comment was marked as off-topic.
This comment was marked as off-topic.
J'ai corrigé quelques coquilles dans des blocks |
Il semblerait qu'une colonne ne passe pas dans l'export.
Les types de colonnes 👇
En fait, on dirait qu'il essaye de charger un truc qui est dataframe... |
J'ai testé d'exporter les colonnes une à une et ça fonctionne. Le code pour reproduire le résultat 👇@data_exporter
def export_data_to_mysql(df: DataFrame, **kwargs) -> None:
"""
Template for exporting data to a MySQL database.
Specify your configuration settings in 'io_config.yaml'.
Docs: https://docs.mage.ai/design/data-loading#mysql
"""
table_name = "data_structures" # Specify the name of the table to export data to
config_path = path.join(get_repo_path(), "io_config.yaml")
config_profile = "default"
import pandas as pd
from time import sleep
for col in df.columns:
print(col)
with MySQL.with_config(ConfigFileLoader(config_path, config_profile)) as loader:
loader.export(
pd.DataFrame({col: df[col]}),
None,
table_name,
index=False, # Specifies whether to include index in exported table
if_exists="replace", # Specify resolution policy if table name already exists
)
sleep(1)
print(" ") En regardant le Dataframe, j'ai constaté :
Vu que tu es dessus @florianeduccini, est-ce que tu gères ces observations ? Ou est-ce que j'interviens ? |
@KyllianBeguin : je regarde ça et je te dis dès que j'arrive à exporter :) |
To do :
|
@KyllianBeguin : on est d'accord que sur ta TODO c'est lorsqu'on intègrera le cleaning de l'export d'events dans mage? |
Hello, |
Est-ce sur tout le pipeline ? Ou juste sur un block ?
Exactement ! Le cleaning de l'export est dans le backlog, on anticipe juste les traitement à appliquer 😃 |
Les deux, j'ai lancé au global puis juste un block qui aurait du mettre 10 secondes à tourner et au bout de 10 minutes j'ai du couper. |
Ok, pcq y les blocks qui traitent les données géographiques sont longs à se lancer ^^ |
Histoire d'anticiper la migration des sources de données de l'appli, je vous propose de faire le listing des sources actuelle et le mapping vers les table de la bdd.
Les scripts sont ceux du staging : |
Vu dans la PR #20 : Il faudra faire migrer la fonction |
Pour s'assurer que tous les fichiers sont bien migrés, je vous propose ce tableau :
|
Hey ! |
J'ai repris le tableau de référencement des jeux de données présents dans l'appli, qui comprends les deux fichiers. |
Hello 👋 je déterre cette issue ! |
Salut, j'ai upgrade la version de geopandas (0.14.4) dans la #37 pour mage. La version 0.14.3 a des problèmes avec fiona, une bibliothèque utilisée par geopandas. Edit : on est en 1.0.1 👇 |
Salut, j'ai mis à jour la structure du repo. Il faut maintenant travailler directement dans le dossier |
Salut, la version 0.14.4 de geopandas fait planter le block |
❓ Contexte
Après avoir exploré nos données, nous avons dressé un ensemble de constats concernant la qualité des données. De ces constats, il faut mettre en place un flux de nettoyage et d'augmentation des données, ainsi que les charger dans une base qui servira d'entrant pour l'application de visualisation.
🧐 Objectifs
💪 ToDo
The text was updated successfully, but these errors were encountered: