From bfaff299e1680742350a7126febb1c58e990f89d Mon Sep 17 00:00:00 2001 From: Olivier Meslin Date: Wed, 22 Nov 2023 21:26:57 +0100 Subject: [PATCH] =?UTF-8?q?Pr=C3=A9cision?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 03_Fiches_thematiques/Fiche_arrow.qmd | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/03_Fiches_thematiques/Fiche_arrow.qmd b/03_Fiches_thematiques/Fiche_arrow.qmd index 65874d91..ca2702e0 100644 --- a/03_Fiches_thematiques/Fiche_arrow.qmd +++ b/03_Fiches_thematiques/Fiche_arrow.qmd @@ -11,7 +11,7 @@ L'utilisateur souhaite manipuler des données structurées sous forme de `data.f - Il est essentiel de travailler avec la dernière version d'`arrow`, de `duckdb` et de `R` car les *packages* `arrow` et `duckdb` sont en cours de développement. -- Lorsqu'on manipule des données volumineuses, il est essentiel de manipuler uniquement des objets `Arrow Table`, plutôt que des `tibble`. Cela implique d'utiliser la fonction `compute()` plutôt que `collect()` dans les traitements intermédiaires. +- Si les données traitées sont très volumineuses (plus de 10 Go ou plus de 10 millions d'observations), il est essentiel de manipuler uniquement des objets `Arrow Table`, plutôt que des `tibbles`. Cela implique notamment d'utiliser la fonction `compute()` plutôt que `collect()` dans les traitements intermédiaires. ::: @@ -205,9 +205,9 @@ On pourrait penser que, lorsqu'on exécute l'ensemble de ce traitement, `arrow` -### Utiliser des objets `Arrow Table` plutôt que des `tibble` +### Utiliser des objets `Arrow Table` plutôt que des `tibbles` -__Lorsqu'on manipule des données volumineuses, il est essentiel de manipuler uniquement des objets `Arrow Table`, plutôt que des `tibble`__. Cela implique deux recommandations: +__Lorsqu'on manipule des données volumineuses, il est essentiel de manipuler uniquement des objets `Arrow Table`, plutôt que des `tibbles`__. Cela implique deux recommandations: - Importer les données directement dans des `Arrow Table`, ou à défaut convertir en `Arrow Table` avec la fonction `as_arrow_table()`. Par exemple, lorsqu'on importe un fichier Parquet avec la fonction `read_parquet`, il est recommandé d'utiliser l'option `as_data_frame = FALSE` pour que les données soient importées dans un `Arrow Table`. - Utiliser systématiquement `compute()` plutôt que `collect()` dans les étapes de calcul intermédiaires.