diff --git a/_freeze/historias/hist1_paro/execute-results/html.json b/_freeze/historias/hist1_paro/execute-results/html.json new file mode 100644 index 0000000..ef12d81 --- /dev/null +++ b/_freeze/historias/hist1_paro/execute-results/html.json @@ -0,0 +1,17 @@ +{ + "hash": "82939c5a8b18b02c17def8f0272df6ad", + "result": { + "engine": "knitr", + "markdown": "---\ntitle: \"Impacto de las crisis en el paro de Castilla-La Mancha\"\nauthor: \n - Gema Fernández-Avilés (Gema.FAviles@uclm)\n - Isidro Hidalgo (Isidro.Hidalgo@uclm)\nformat: \n html:\n theme: cerulean\n highlight-style: ayu-mirage\n self-contained: true\n # date: \"2024-12-27\"\n embed-resources: true\n toc-title: Summary\n toc: true\n number-sections: true\n preview-links: auto\n code-link: true\n code-fold: true\nnumber-sections: true\nexecute:\n code-overflow: scroll\n# code-fold: true\n echo: true\n eval: true\n output: true\n include: true\n freeze: auto\n fig-height: 5\n warning: false\n comment: \"#>\"\n code-line-numbers: true\n code-copy: true\n---\n\n\n::: {.callout-note}\nLos datos que se utilizan en esta historia están disponibles en el paquete `CDR`\nque puede instalarse con el siguiente comando:\n\n```r\ninstall.packages(\"remotes\")\nremotes::install_github(\"cdr-book/CDR\")\n```\n\nLos datos referentes a la evolución del paro en Castilla-La Mancha se encuentran en el objeto `parados_clm`.\n:::\n\n\n# Entender el contexto: \n\n::: {.callout-tip}\n\n## Cómo definir el propósito y la audiencia de tu análisis\n:::\n\nEn los últimos 15 años el mundo ha sufrido dos grandes periodos de **crisis económica**: en **2008**, de tipo financiero; y en **2020**, a causa de la pandemia de **COVID-19**. La Directora del Instituto de la Mujer de Castilla-La Mancha quiere que mi equipo analice el impacto de ambas crisis en las mujeres de la región.\n\nHemos conseguido del paquete `CDR` un conjunto de datos con, entre otras, algunas variables interesantes: **sexo** y **edad** del parado, **tiempo de búsqueda de empleo** y **sector de procedencia**. El conjunto de datos utilizado comprende la **media anual del paro registrado en la comunidad autónoma de Castilla-La Mancha** desagregado según estas variables, a lo largo de los años que van desde 2007 a 2022.\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Configuración inicial\"}\nlibrary(CDR)\nlibrary(tidyverse)\nlibrary(ggpubr)\nlibrary(ggridges)\n\npaleta_heatmaps <- c(\"#B3FF0080\", \"#213894FF\")\npaleta_lineas <- c(\"blue4\", \"orange\", \"darkgreen\")\n\ndata(\"parados_clm\")\nparados_clm\n```\n\n::: {.cell-output .cell-output-stdout}\n\n```\n# A tibble: 92,215 × 8\n anyo sexo edad sector t_bus_e tramo_edad t_bus_e_agr parados\n \n 1 2007 hombre 16 agricu t<=7 días <30 años t<=6 meses 0.667\n 2 2018 mujer 36 sinact t<=7 días 30-44 años t<=6 meses 1.67 \n 3 2012 mujer 30 agricu t<=7 días 30-44 años t<=6 meses 5.33 \n 4 2022 mujer 49 constr t<=7 días >44 años t<=6 meses 0.75 \n 5 2007 mujer 54 indust t<=7 días >44 años t<=6 meses 1.5 \n 6 2008 mujer 29 servic t<=7 días <30 años t<=6 meses 58.1 \n 7 2009 hombre 49 sinact t<=7 días >44 años t<=6 meses 1.42 \n 8 2007 hombre 17 agricu t<=7 días <30 años t<=6 meses 1.08 \n 9 2012 hombre 62 servic t<=7 días >44 años t<=6 meses 4.58 \n10 2021 hombre 26 constr t<=7 días <30 años t<=6 meses 5.17 \n# ℹ 92,205 more rows\n```\n\n\n:::\n\n```{.r .cell-code code-summary=\"Configuración inicial\"}\nhelp(parados_clm)\n```\n:::\n\n\n\n\n# Elegir una visualización adecuada\n\n::: {.callout-tip}\n\n## Selección de gráficos y visualizaciones que mejor representen tus datos.\n:::\n\n\n## Impacto de las crisis en la evolución global del paro\n\nPodemos construir un gráfico lineal para empezar viendo la evolución...\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Resumen de los parados por años objetivo\"}\nresumen <- parados_clm |>\n group_by(anyo) |>\n summarise(parados = sum(parados)) |>\n mutate(anyo = as.numeric(as.character(anyo)))\nanyos <- c(2007, 2013, 2019, 2020, 2022)\nparo_anyos <- resumen |>\n filter(anyo %in% anyos) |>\n select(parados) |>\n mutate(parados = round(parados, 0))\npuntos <- data.frame(anyos, paro_anyos)\n```\n:::\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Creación del gráfico lineal\"}\nggplot(resumen, aes(anyo, parados)) +\n geom_line()+\n theme_bw()\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-3-1.png){width=672}\n:::\n:::\n\n\nEl gráfico no tiene una escala de ordenadas realista, y es muy simple. No tiene título. Vamos a mejorarlo un poco...\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Creación del gráfico lineal mejorado\"}\ngraf <- ggplot(resumen, aes(anyo, parados)) +\n geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) +\n xlab(\"\") +\n ylab(\"número de parados\") +\n geom_point(puntos,\n mapping = aes(x = anyos, y = parados),\n shape = \"circle filled\", size = 2.5, fill = paleta_lineas[1],\n alpha = 0.8\n ) +\n scale_y_continuous(\n labels = function(x) {\n format(x,\n big.mark = \".\",\n decimal.mark = \",\", scientific = FALSE\n )\n },\n limits = c(0, 300000)\n ) +\n ggtitle(\"Impacto de las crisis en el paro de Castilla-La Mancha\") +\n theme_minimal()\n\ngraf\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-4-1.png){width=672}\n:::\n:::\n\n\nEn adelante, vamos a tomar como puntos de referencia los años previos a las crisis: 2007 y 2019, y el último año de datos, 2022. Se puede observar que la crisis de la **COVID-19** aumentó el paro en 2020, pero la **crisis de 2008** tuvo un impacto enorme y generalizado en toda la economía, por lo que su efecto en el paro registrado fue mucho mayor, multiplicándolo casi por 3.\n\n\n\n\n# Eliminar el desorden\n\n::: {.callout-tip}\n\n## Simplificación de gráficos eliminando elementos innecesarios.\n:::\n\n\nBien, pero trabajamos para el Instituto de la mujer... ¡hay que separar por sexo!:\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Resumen por sexo\"}\nresumen_sexo <- parados_clm |>\n group_by(anyo, sexo) |>\n summarise(parados = sum(parados)) |>\n mutate(anyo = as.numeric(as.character(anyo)))\nparo_anyos <- resumen_sexo |>\n filter(anyo %in% anyos) |>\n select(sexo, parados) |>\n mutate(parados = round(parados, 0))\npuntos <- data.frame(\n anyos = rep(anyos, each = 2),\n sexo = paro_anyos$sexo,\n parados = paro_anyos$parados\n)\n```\n:::\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Gráfico de lineas por sexo\"}\ngraf <- ggplot(resumen_sexo, aes(anyo, parados)) +\n geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) +\n xlab(\"\") +\n ylab(\"número de parados\") +\n facet_wrap(\"sexo\") +\n geom_point(puntos,\n mapping = aes(x = anyos, y = parados),\n shape = \"circle filled\", size = 2.5, fill = paleta_lineas[1],\n alpha = 0.8\n ) +\n scale_y_continuous(\n labels = function(x) {\n format(x,\n big.mark = \".\",\n decimal.mark = \",\", scientific = FALSE\n )\n },\n limits = c(0, 300000)\n ) +\n ggtitle(\"Las mujeres se han recuperado peor de la crisis de 2007\") + \n theme_minimal()\n\ngraf\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-6-1.png){width=672}\n:::\n:::\n\n\n\n¿Lo podemos hacer mejor?: sí, uniendo los gráficos, para mejorar la comparación, añadiendo color y otros formatos...\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Gráfico de lineas por sexo mejorado\"}\ngraf <- ggplot(resumen_sexo, aes(anyo, parados)) +\n geom_line(\n data = resumen_sexo[resumen_sexo$sexo == \"hombre\", ],\n linewidth = 1, col = paleta_lineas[1], alpha = 0.5\n ) +\n geom_line(\n data = resumen_sexo[resumen_sexo$sexo == \"mujer\", ],\n linewidth = 1, col = paleta_lineas[2], alpha = 0.5\n ) +\n xlab(\"\") +\n ylab(\"número de parados\") +\n annotate(\n geom = \"text\", label = \"hombres\", col = paleta_lineas[1],\n x = 2021,\n y = puntos$parados[puntos$sexo == \"hombre\" &\n puntos$anyos == 2022]\n ) +\n annotate(\n geom = \"text\", label = \"mujeres\", col = paleta_lineas[2],\n x = 2021,\n y = puntos$parados[puntos$sexo == \"mujer\" &\n puntos$anyos == 2022]\n ) +\n scale_y_continuous(\n labels = function(x) {\n format(x,\n big.mark = \".\",\n decimal.mark = \",\", scientific = FALSE\n )\n },\n limits = c(0, 150000)\n ) +\n ggtitle(\"Las mujeres se han recuperado peor de la crisis de 2007\") +\n theme_minimal()\n\ngraf\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-7-1.png){width=672}\n:::\n:::\n\n\nEn este caso, como ya habíamos marcado los puntos de giro en el gráfico del paro total, hemos preferido quitarlos, porque no nos gustan estéticamente, pero aprovechamos el último valor para colocar la etiqueta de la serie, mucho mejor que en una leyenda... ¡y más visible!\n\n\n## Evolución del paro medio anual en función de la edad y el sexo\n\nPara ver simultáneamente una variable cuantitativa en función de otras dos variables, podemos usar un mapa de calor:\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Preparación de los datos. Selección de variables y años\"}\ntabla <- parados_clm |>\n select(anyo, sexo, edad, parados) |>\n filter(anyo %in% c(2007, 2019, 2022))\ntabla <- tabla |>\n group_by(anyo, sexo, edad) |>\n summarise(parados = sum(parados))\n```\n:::\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Heatmap por sexo, edad y año\"}\ngraf <- ggplot(tabla, aes(x = sexo, y = edad, fill = parados)) +\n geom_raster() +\n scale_fill_gradientn(colours = paleta_heatmaps) +\n facet_wrap(~anyo) +\n labs(x = \"\", y = \"\") +\n theme_bw()\n \ngraf\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-9-1.png){width=672}\n:::\n:::\n\n\nSe puede apreciar que en los dos procesos críticos se ha producido un **desplazamiento del paro hacia los intervalos de mayor edad**, especialmente en las **mujeres**.\n\nEl mapa de calor es muy útil para una primera impresión, pero ¿es la mejor visualización? Si nos fijamos, no se aprecia bien la forma de la distribución. Vamos a intentar mejorar el resultado:\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Gráfico de paneles por sexo, edad y año\"}\nggplot(tabla, aes(\n x = edad, y = parados,\n col = anyo, fill = anyo\n)) +\n geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) +\n facet_wrap(~sexo, ncol = 2) +\n ylab(\"número de parados\") +\n scale_y_continuous(labels = function(x) {\n format(x,\n big.mark = \".\", decimal.mark = \",\", scientific = FALSE\n )\n }) +\n theme_bw() \n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-10-1.png){width=672}\n:::\n:::\n\n\nAhora se ve mucho mejor que en 2007, antes de ambas crisis, los parados presentan **dos máximos**, en torno a 25 y 60 años, mientras que las desempleadas tienen una distribución bastante centrada entre 30 y 40 años. En cambio, en 2019 y aún más en 2022 se aprecia el desplazamiento de la distribución de los parados de ambos sexos hacia los estratos de edad **mayores de 50 años**. Este desplazamiento es algo más intenso en las mujeres.\n\n\n\n# Enfocar la atención donde importa: estamos trabajando para el Instituto de la mujer\n\n\n::: {.callout-tip}\n\n## Técnicas para destacar los puntos clave en tus visualizaciones.\n:::\n\n\n\n\n## Evolución del paro femenino según el tiempo de búsqueda de empleo\n\nHacemos lo mismo que con el sexo, pero incluimos la variable `t_bus_e_agr` (tiempo de búsqueda de empleo):\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Preparación de los datos. Selección de variables y años\"}\ntabla <- parados_clm |>\n filter(anyo %in% c(2007, 2019, 2022)) |>\n select(anyo, sexo, t_bus_e_agr, edad, parados)\ntabla <- tabla |>\n group_by(anyo, t_bus_e_agr, edad, sexo) |>\n summarise(parados = sum(parados))\n```\n:::\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Gráfico de facetas por sexo, sector económico, edad y año\"}\nggplot(tabla, aes(\n x = edad, y = parados,\n col = anyo, fill = anyo\n)) +\n geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) +\n facet_wrap(~ sexo * t_bus_e_agr, ncol = 4) +\n ylab(\"número de parados\") +\n labs(fill = \"años:\", color = \"años:\") +\n scale_y_continuous(labels = function(x) {\n format(x,\n big.mark = \".\", decimal.mark = \",\", scientific = FALSE\n )\n }) +\n ggtitle(\"Se dispara el paro de larga duración\") +\n theme_bw()\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-12-1.png){width=672}\n:::\n:::\n\n\nSe aprecia claramente que el tramo con mayor incremento de número de parados es el correspondiente a más de 24 meses de búsqueda de empleo (**paro de muy larga duración**), ya que la crisis financiera de 2008 les redujo su probabilidad de encontrar empleo. Se puede afirmar también que los dos períodos de crisis han provocado la creación de un **paro estructural de larga duración, y de más edad**. Este efecto es mayor en las mujeres.\n\n## Evolución del paro femenino según el sector de procedencia\n\nSi repetimos el gráfico según el sector de procedencia, tenemos:\n\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Preparación de datos. Selección de variables y años\"}\ntabla <- parados_clm |>\n filter(anyo %in% c(2007, 2019, 2022)) |>\n select(anyo, sexo, sector, edad, parados)\ntabla <- tabla |>\n group_by(anyo, sector, edad, sexo) |>\n summarise(parados = sum(parados))\n```\n:::\n\n::: {.cell}\n\n```{.r .cell-code code-summary=\"Gráfico de facetas por sexo, sector, edad y año\"}\nggplot(tabla, aes(\n x = edad, y = parados,\n col = anyo, fill = anyo\n)) +\n geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) +\n facet_wrap(~ sexo * sector, ncol = 5) +\n ylab(\"número de parados\") +\n labs(fill = \"años:\", color = \"años:\") +\n scale_y_continuous(labels = function(x) {\n format(x,\n big.mark = \".\", decimal.mark = \",\", scientific = FALSE\n )\n }) +\n ggtitle(\"El sector servicios acapara el mayor aumento de paro\") +\n theme_bw()\n```\n\n::: {.cell-output-display}\n![](hist1_paro_files/figure-html/unnamed-chunk-14-1.png){width=672}\n:::\n:::\n\n\n\n\n# Contar una historia\n\n::: {.callout-tip}\n\n## Cómo narrar una historia convincente con tus datos.\n:::\n\n## Inicio\n\nssssssssssssssss\n\n## Trama \n\nssssssssssssssss\n\n## Desenlace\n\nLa crisis de 2008 tuvo un gran impacto en el paro registrado de Castilla-La Mancha, multiplicándolo por un factor mayor de 3 desde 2007. Sin embargo, a partir del año 2013 el paro registrado inicia una tendencia a la baja muy pronunciada que aún hoy continúa, después de haber sufrido un rebote debido a la crisis de la COVID-19.\n\nLa **población mayor de 45 años**, el **sector servicios** y los **parados de larga duración** son los grandes perjudicados por ambos procesos de crisis, siendo este **impacto mucho mayor en las mujeres**.\n", + "supporting": [ + "hist1_paro_files" + ], + "filters": [ + "rmarkdown/pagebreak.lua" + ], + "includes": {}, + "engineDependencies": {}, + "preserve": {}, + "postProcess": true + } +} \ No newline at end of file diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-10-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-10-1.png new file mode 100644 index 0000000..000a6b8 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-10-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-12-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-12-1.png new file mode 100644 index 0000000..70f5ff1 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-12-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-14-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-14-1.png new file mode 100644 index 0000000..389277c Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-14-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-2-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-2-1.png new file mode 100644 index 0000000..2ba5f13 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-2-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-3-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-3-1.png new file mode 100644 index 0000000..d5dd09c Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-3-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-4-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-4-1.png new file mode 100644 index 0000000..5e12fa3 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-4-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-5-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-5-1.png new file mode 100644 index 0000000..85a6d67 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-5-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-6-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-6-1.png new file mode 100644 index 0000000..000ca83 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-6-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-7-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-7-1.png new file mode 100644 index 0000000..7132ee7 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-7-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-8-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-8-1.png new file mode 100644 index 0000000..8182a35 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-8-1.png differ diff --git a/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-9-1.png b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-9-1.png new file mode 100644 index 0000000..f01b235 Binary files /dev/null and b/_freeze/historias/hist1_paro/figure-html/unnamed-chunk-9-1.png differ diff --git a/docs/historias/hist1_paro.html b/docs/historias/hist1_paro.html new file mode 100644 index 0000000..5a9b2ce --- /dev/null +++ b/docs/historias/hist1_paro.html @@ -0,0 +1,3924 @@ + + + + + + + + +Impacto de las crisis en el paro de Castilla-La Mancha + + + + + + + + + + + + + + + +
+ +
+

Impacto de las crisis en el paro de Castilla-La Mancha

+
+ + + +
+ +
+
Authors
+
+

Gema Fernández-Avilés (Gema.FAviles@uclm)

+

Isidro Hidalgo (Isidro.Hidalgo@uclm)

+
+
+ + + +
+ + + +
+
+
+ +
+
+Note +
+
+
+

Los datos que se utilizan en esta historia están disponibles en el paquete CDR que puede instalarse con el siguiente comando:

+
install.packages("remotes")
+remotes::install_github("cdr-book/CDR")
+

Los datos referentes a la evolución del paro en Castilla-La Mancha se encuentran en el objeto parados_clm.

+
+
+

+1 Entender el contexto:

+
+
+
+ +
+
+Cómo definir el propósito y la audiencia de tu análisis +
+
+
+ +
+
+

En los últimos 15 años el mundo ha sufrido dos grandes periodos de crisis económica: en 2008, de tipo financiero; y en 2020, a causa de la pandemia de COVID-19. La Directora del Instituto de la Mujer de Castilla-La Mancha quiere que mi equipo analice el impacto de ambas crisis en las mujeres de la región.

+

Hemos conseguido del paquete CDR un conjunto de datos con, entre otras, algunas variables interesantes: sexo y edad del parado, tiempo de búsqueda de empleo y sector de procedencia. El conjunto de datos utilizado comprende la media anual del paro registrado en la comunidad autónoma de Castilla-La Mancha desagregado según estas variables, a lo largo de los años que van desde 2007 a 2022.

+
+
Configuración inicial
library(CDR)
+library(tidyverse)
+library(ggpubr)
+library(ggridges)
+
+paleta_heatmaps <- c("#B3FF0080", "#213894FF")
+paleta_lineas <- c("blue4", "orange", "darkgreen")
+
+data("parados_clm")
+parados_clm
+
+
# A tibble: 92,215 × 8
+   anyo  sexo    edad sector t_bus_e   tramo_edad t_bus_e_agr parados
+   <ord> <fct>  <dbl> <fct>  <ord>     <ord>      <ord>         <dbl>
+ 1 2007  hombre    16 agricu t<=7 días <30 años   t<=6 meses    0.667
+ 2 2018  mujer     36 sinact t<=7 días 30-44 años t<=6 meses    1.67 
+ 3 2012  mujer     30 agricu t<=7 días 30-44 años t<=6 meses    5.33 
+ 4 2022  mujer     49 constr t<=7 días >44 años   t<=6 meses    0.75 
+ 5 2007  mujer     54 indust t<=7 días >44 años   t<=6 meses    1.5  
+ 6 2008  mujer     29 servic t<=7 días <30 años   t<=6 meses   58.1  
+ 7 2009  hombre    49 sinact t<=7 días >44 años   t<=6 meses    1.42 
+ 8 2007  hombre    17 agricu t<=7 días <30 años   t<=6 meses    1.08 
+ 9 2012  hombre    62 servic t<=7 días >44 años   t<=6 meses    4.58 
+10 2021  hombre    26 constr t<=7 días <30 años   t<=6 meses    5.17 
+# ℹ 92,205 more rows
+
+
Configuración inicial
help(parados_clm)
+
+
+

+2 Elegir una visualización adecuada

+
+
+
+ +
+
+Selección de gráficos y visualizaciones que mejor representen tus datos. +
+
+
+ +
+
+

+2.1 Impacto de las crisis en la evolución global del paro

+

Podemos construir un gráfico lineal para empezar viendo la evolución…

+
+
Resumen de los parados por años objetivo
resumen <- parados_clm |>
+  group_by(anyo) |>
+  summarise(parados = sum(parados)) |>
+  mutate(anyo = as.numeric(as.character(anyo)))
+anyos <- c(2007, 2013, 2019, 2020, 2022)
+paro_anyos <- resumen |>
+  filter(anyo %in% anyos) |>
+  select(parados) |>
+  mutate(parados = round(parados, 0))
+puntos <- data.frame(anyos, paro_anyos)
+
+
+
+
Creación del gráfico lineal
ggplot(resumen, aes(anyo, parados)) +
+  geom_line()+
+  theme_bw()
+
+
+

+
+
+
+
+

El gráfico no tiene una escala de ordenadas realista, y es muy simple. No tiene título. Vamos a mejorarlo un poco…

+
+
Creación del gráfico lineal mejorado
graf <- ggplot(resumen, aes(anyo, parados)) +
+  geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) +
+  xlab("") +
+  ylab("número de parados") +
+  geom_point(puntos,
+    mapping = aes(x = anyos, y = parados),
+    shape = "circle filled", size = 2.5, fill = paleta_lineas[1],
+    alpha = 0.8
+  ) +
+  scale_y_continuous(
+    labels = function(x) {
+      format(x,
+        big.mark = ".",
+        decimal.mark = ",", scientific = FALSE
+      )
+    },
+    limits = c(0, 300000)
+  ) +
+  ggtitle("Impacto de las crisis en el paro de Castilla-La Mancha") +
+  theme_minimal()
+
+graf
+
+
+

+
+
+
+
+

En adelante, vamos a tomar como puntos de referencia los años previos a las crisis: 2007 y 2019, y el último año de datos, 2022. Se puede observar que la crisis de la COVID-19 aumentó el paro en 2020, pero la crisis de 2008 tuvo un impacto enorme y generalizado en toda la economía, por lo que su efecto en el paro registrado fue mucho mayor, multiplicándolo casi por 3.

+

+3 Eliminar el desorden

+
+
+
+ +
+
+Simplificación de gráficos eliminando elementos innecesarios. +
+
+
+ +
+
+

Bien, pero trabajamos para el Instituto de la mujer… ¡hay que separar por sexo!:

+
+
Resumen por sexo
resumen_sexo <- parados_clm |>
+  group_by(anyo, sexo) |>
+  summarise(parados = sum(parados)) |>
+  mutate(anyo = as.numeric(as.character(anyo)))
+paro_anyos <- resumen_sexo |>
+  filter(anyo %in% anyos) |>
+  select(sexo, parados) |>
+  mutate(parados = round(parados, 0))
+puntos <- data.frame(
+  anyos = rep(anyos, each = 2),
+  sexo = paro_anyos$sexo,
+  parados = paro_anyos$parados
+)
+
+
+
+
Gráfico de lineas por sexo
graf <- ggplot(resumen_sexo, aes(anyo, parados)) +
+  geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) +
+  xlab("") +
+  ylab("número de parados") +
+  facet_wrap("sexo") +
+  geom_point(puntos,
+    mapping = aes(x = anyos, y = parados),
+    shape = "circle filled", size = 2.5, fill = paleta_lineas[1],
+    alpha = 0.8
+  ) +
+  scale_y_continuous(
+    labels = function(x) {
+      format(x,
+        big.mark = ".",
+        decimal.mark = ",", scientific = FALSE
+      )
+    },
+    limits = c(0, 300000)
+  ) +
+  ggtitle("Las mujeres se han recuperado peor de la crisis de 2007") + 
+  theme_minimal()
+
+graf
+
+
+

+
+
+
+
+

¿Lo podemos hacer mejor?: sí, uniendo los gráficos, para mejorar la comparación, añadiendo color y otros formatos…

+
+
Gráfico de lineas por sexo mejorado
graf <- ggplot(resumen_sexo, aes(anyo, parados)) +
+  geom_line(
+    data = resumen_sexo[resumen_sexo$sexo == "hombre", ],
+    linewidth = 1, col = paleta_lineas[1], alpha = 0.5
+  ) +
+  geom_line(
+    data = resumen_sexo[resumen_sexo$sexo == "mujer", ],
+    linewidth = 1, col = paleta_lineas[2], alpha = 0.5
+  ) +
+  xlab("") +
+  ylab("número de parados") +
+  annotate(
+    geom = "text", label = "hombres", col = paleta_lineas[1],
+    x = 2021,
+    y = puntos$parados[puntos$sexo == "hombre" &
+      puntos$anyos == 2022]
+  ) +
+  annotate(
+    geom = "text", label = "mujeres", col = paleta_lineas[2],
+    x = 2021,
+    y = puntos$parados[puntos$sexo == "mujer" &
+      puntos$anyos == 2022]
+  ) +
+  scale_y_continuous(
+    labels = function(x) {
+      format(x,
+        big.mark = ".",
+        decimal.mark = ",", scientific = FALSE
+      )
+    },
+    limits = c(0, 150000)
+  ) +
+  ggtitle("Las mujeres se han recuperado peor de la crisis de 2007") +
+  theme_minimal()
+
+graf
+
+
+

+
+
+
+
+

En este caso, como ya habíamos marcado los puntos de giro en el gráfico del paro total, hemos preferido quitarlos, porque no nos gustan estéticamente, pero aprovechamos el último valor para colocar la etiqueta de la serie, mucho mejor que en una leyenda… ¡y más visible!

+

+3.1 Evolución del paro medio anual en función de la edad y el sexo

+

Para ver simultáneamente una variable cuantitativa en función de otras dos variables, podemos usar un mapa de calor:

+
+
Preparación de los datos. Selección de variables y años
tabla <- parados_clm |>
+  select(anyo, sexo, edad, parados) |>
+  filter(anyo %in% c(2007, 2019, 2022))
+tabla <- tabla |>
+  group_by(anyo, sexo, edad) |>
+  summarise(parados = sum(parados))
+
+
+
+
Heatmap por sexo, edad y año
graf <- ggplot(tabla, aes(x = sexo, y = edad, fill = parados)) +
+  geom_raster() +
+  scale_fill_gradientn(colours = paleta_heatmaps) +
+  facet_wrap(~anyo) +
+  labs(x = "", y = "") +
+  theme_bw()
+ 
+graf
+
+
+

+
+
+
+
+

Se puede apreciar que en los dos procesos críticos se ha producido un desplazamiento del paro hacia los intervalos de mayor edad, especialmente en las mujeres.

+

El mapa de calor es muy útil para una primera impresión, pero ¿es la mejor visualización? Si nos fijamos, no se aprecia bien la forma de la distribución. Vamos a intentar mejorar el resultado:

+
+
Gráfico de paneles por sexo, edad y año
ggplot(tabla, aes(
+  x = edad, y = parados,
+  col = anyo, fill = anyo
+)) +
+  geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) +
+  facet_wrap(~sexo, ncol = 2) +
+  ylab("número de parados") +
+  scale_y_continuous(labels = function(x) {
+    format(x,
+      big.mark = ".", decimal.mark = ",", scientific = FALSE
+    )
+  }) +
+  theme_bw() 
+
+
+

+
+
+
+
+

Ahora se ve mucho mejor que en 2007, antes de ambas crisis, los parados presentan dos máximos, en torno a 25 y 60 años, mientras que las desempleadas tienen una distribución bastante centrada entre 30 y 40 años. En cambio, en 2019 y aún más en 2022 se aprecia el desplazamiento de la distribución de los parados de ambos sexos hacia los estratos de edad mayores de 50 años. Este desplazamiento es algo más intenso en las mujeres.

+

+4 Enfocar la atención donde importa: estamos trabajando para el Instituto de la mujer

+
+
+
+ +
+
+Técnicas para destacar los puntos clave en tus visualizaciones. +
+
+
+ +
+
+

+4.1 Evolución del paro femenino según el tiempo de búsqueda de empleo

+

Hacemos lo mismo que con el sexo, pero incluimos la variable t_bus_e_agr (tiempo de búsqueda de empleo):

+
+
Preparación de los datos. Selección de variables y años
tabla <- parados_clm |>
+  filter(anyo %in% c(2007, 2019, 2022)) |>
+  select(anyo, sexo, t_bus_e_agr, edad, parados)
+tabla <- tabla |>
+  group_by(anyo, t_bus_e_agr, edad, sexo) |>
+  summarise(parados = sum(parados))
+
+
+
+
Gráfico de facetas por sexo, sector económico, edad y año
ggplot(tabla, aes(
+  x = edad, y = parados,
+  col = anyo, fill = anyo
+)) +
+  geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) +
+  facet_wrap(~ sexo * t_bus_e_agr, ncol = 4) +
+  ylab("número de parados") +
+  labs(fill = "años:", color = "años:") +
+  scale_y_continuous(labels = function(x) {
+    format(x,
+      big.mark = ".", decimal.mark = ",", scientific = FALSE
+    )
+  }) +
+  ggtitle("Se dispara el paro de larga duración") +
+  theme_bw()
+
+
+

+
+
+
+
+

Se aprecia claramente que el tramo con mayor incremento de número de parados es el correspondiente a más de 24 meses de búsqueda de empleo (paro de muy larga duración), ya que la crisis financiera de 2008 les redujo su probabilidad de encontrar empleo. Se puede afirmar también que los dos períodos de crisis han provocado la creación de un paro estructural de larga duración, y de más edad. Este efecto es mayor en las mujeres.

+

+4.2 Evolución del paro femenino según el sector de procedencia

+

Si repetimos el gráfico según el sector de procedencia, tenemos:

+
+
Preparación de datos. Selección de variables y años
tabla <- parados_clm |>
+  filter(anyo %in% c(2007, 2019, 2022)) |>
+  select(anyo, sexo, sector, edad, parados)
+tabla <- tabla |>
+  group_by(anyo, sector, edad, sexo) |>
+  summarise(parados = sum(parados))
+
+
+
+
Gráfico de facetas por sexo, sector, edad y año
ggplot(tabla, aes(
+  x = edad, y = parados,
+  col = anyo, fill = anyo
+)) +
+  geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) +
+  facet_wrap(~ sexo * sector, ncol = 5) +
+  ylab("número de parados") +
+  labs(fill = "años:", color = "años:") +
+  scale_y_continuous(labels = function(x) {
+    format(x,
+      big.mark = ".", decimal.mark = ",", scientific = FALSE
+    )
+  }) +
+  ggtitle("El sector servicios acapara el mayor aumento de paro") +
+  theme_bw()
+
+
+

+
+
+
+
+

+5 Contar una historia

+
+
+
+ +
+
+Cómo narrar una historia convincente con tus datos. +
+
+
+ +
+
+

+5.1 Inicio

+

ssssssssssssssss

+

+5.2 Trama

+

ssssssssssssssss

+

+5.3 Desenlace

+

La crisis de 2008 tuvo un gran impacto en el paro registrado de Castilla-La Mancha, multiplicándolo por un factor mayor de 3 desde 2007. Sin embargo, a partir del año 2013 el paro registrado inicia una tendencia a la baja muy pronunciada que aún hoy continúa, después de haber sufrido un rebote debido a la crisis de la COVID-19.

+

La población mayor de 45 años, el sector servicios y los parados de larga duración son los grandes perjudicados por ambos procesos de crisis, siendo este impacto mucho mayor en las mujeres.

+
+
+ + + + \ No newline at end of file diff --git a/historias/toledo.qmd b/historias/his8_toledo.qmd similarity index 100% rename from historias/toledo.qmd rename to historias/his8_toledo.qmd diff --git a/historias/hist1_paro.qmd b/historias/hist1_paro.qmd new file mode 100644 index 0000000..a24c40f --- /dev/null +++ b/historias/hist1_paro.qmd @@ -0,0 +1,402 @@ +--- +title: "Impacto de las crisis en el paro de Castilla-La Mancha" +author: + - Gema Fernández-Avilés (Gema.FAviles@uclm) + - Isidro Hidalgo (Isidro.Hidalgo@uclm) +format: + html: + theme: cerulean + highlight-style: ayu-mirage + self-contained: true + # date: "`r Sys.Date()`" + embed-resources: true + toc-title: Summary + toc: true + number-sections: true + preview-links: auto + code-link: true + code-fold: true +number-sections: true +execute: + code-overflow: scroll +# code-fold: true + echo: true + eval: true + output: true + include: true + freeze: auto + fig-height: 5 + warning: false + comment: "#>" + code-line-numbers: true + code-copy: true +--- + +::: {.callout-note} +Los datos que se utilizan en esta historia están disponibles en el paquete `CDR` +que puede instalarse con el siguiente comando: + +```r +install.packages("remotes") +remotes::install_github("cdr-book/CDR") +``` + +Los datos referentes a la evolución del paro en Castilla-La Mancha se encuentran en el objeto `parados_clm`. +::: + + +# Entender el contexto: + +::: {.callout-tip} + +## Cómo definir el propósito y la audiencia de tu análisis +::: + +En los últimos 15 años el mundo ha sufrido dos grandes periodos de **crisis económica**: en **2008**, de tipo financiero; y en **2020**, a causa de la pandemia de **COVID-19**. La Directora del Instituto de la Mujer de Castilla-La Mancha quiere que mi equipo analice el impacto de ambas crisis en las mujeres de la región. + +Hemos conseguido del paquete `CDR` un conjunto de datos con, entre otras, algunas variables interesantes: **sexo** y **edad** del parado, **tiempo de búsqueda de empleo** y **sector de procedencia**. El conjunto de datos utilizado comprende la **media anual del paro registrado en la comunidad autónoma de Castilla-La Mancha** desagregado según estas variables, a lo largo de los años que van desde 2007 a 2022. + +```{r} +#| code-summary: Configuración inicial + +library(CDR) +library(tidyverse) +library(ggpubr) +library(ggridges) + +paleta_heatmaps <- c("#B3FF0080", "#213894FF") +paleta_lineas <- c("blue4", "orange", "darkgreen") + +data("parados_clm") +parados_clm +help(parados_clm) +``` + + + +# Elegir una visualización adecuada + +::: {.callout-tip} + +## Selección de gráficos y visualizaciones que mejor representen tus datos. +::: + + +## Impacto de las crisis en la evolución global del paro + +Podemos construir un gráfico lineal para empezar viendo la evolución... + +```{r} +#| code-summary: Resumen de los parados por años objetivo + +resumen <- parados_clm |> + group_by(anyo) |> + summarise(parados = sum(parados)) |> + mutate(anyo = as.numeric(as.character(anyo))) +anyos <- c(2007, 2013, 2019, 2020, 2022) +paro_anyos <- resumen |> + filter(anyo %in% anyos) |> + select(parados) |> + mutate(parados = round(parados, 0)) +puntos <- data.frame(anyos, paro_anyos) +``` + + +```{r} +#| code-summary: Creación del gráfico lineal +ggplot(resumen, aes(anyo, parados)) + + geom_line()+ + theme_bw() +``` + +El gráfico no tiene una escala de ordenadas realista, y es muy simple. No tiene título. Vamos a mejorarlo un poco... + +```{r} +#| code-summary: Creación del gráfico lineal mejorado +graf <- ggplot(resumen, aes(anyo, parados)) + + geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) + + xlab("") + + ylab("número de parados") + + geom_point(puntos, + mapping = aes(x = anyos, y = parados), + shape = "circle filled", size = 2.5, fill = paleta_lineas[1], + alpha = 0.8 + ) + + scale_y_continuous( + labels = function(x) { + format(x, + big.mark = ".", + decimal.mark = ",", scientific = FALSE + ) + }, + limits = c(0, 300000) + ) + + ggtitle("Impacto de las crisis en el paro de Castilla-La Mancha") + + theme_minimal() + +graf +``` + +En adelante, vamos a tomar como puntos de referencia los años previos a las crisis: 2007 y 2019, y el último año de datos, 2022. Se puede observar que la crisis de la **COVID-19** aumentó el paro en 2020, pero la **crisis de 2008** tuvo un impacto enorme y generalizado en toda la economía, por lo que su efecto en el paro registrado fue mucho mayor, multiplicándolo casi por 3. + + + + +# Eliminar el desorden + +::: {.callout-tip} + +## Simplificación de gráficos eliminando elementos innecesarios. +::: + + +Bien, pero trabajamos para el Instituto de la mujer... ¡hay que separar por sexo!: + +```{r} +#| code-summary: Resumen por sexo + +resumen_sexo <- parados_clm |> + group_by(anyo, sexo) |> + summarise(parados = sum(parados)) |> + mutate(anyo = as.numeric(as.character(anyo))) +paro_anyos <- resumen_sexo |> + filter(anyo %in% anyos) |> + select(sexo, parados) |> + mutate(parados = round(parados, 0)) +puntos <- data.frame( + anyos = rep(anyos, each = 2), + sexo = paro_anyos$sexo, + parados = paro_anyos$parados +) +``` + + +```{r} +#| code-summary: Gráfico de lineas por sexo +graf <- ggplot(resumen_sexo, aes(anyo, parados)) + + geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) + + xlab("") + + ylab("número de parados") + + facet_wrap("sexo") + + geom_point(puntos, + mapping = aes(x = anyos, y = parados), + shape = "circle filled", size = 2.5, fill = paleta_lineas[1], + alpha = 0.8 + ) + + scale_y_continuous( + labels = function(x) { + format(x, + big.mark = ".", + decimal.mark = ",", scientific = FALSE + ) + }, + limits = c(0, 300000) + ) + + ggtitle("Las mujeres se han recuperado peor de la crisis de 2007") + + theme_minimal() + +graf +``` + + +¿Lo podemos hacer mejor?: sí, uniendo los gráficos, para mejorar la comparación, añadiendo color y otros formatos... + +```{r} +#| code-summary: Gráfico de lineas por sexo mejorado +graf <- ggplot(resumen_sexo, aes(anyo, parados)) + + geom_line( + data = resumen_sexo[resumen_sexo$sexo == "hombre", ], + linewidth = 1, col = paleta_lineas[1], alpha = 0.5 + ) + + geom_line( + data = resumen_sexo[resumen_sexo$sexo == "mujer", ], + linewidth = 1, col = paleta_lineas[2], alpha = 0.5 + ) + + xlab("") + + ylab("número de parados") + + annotate( + geom = "text", label = "hombres", col = paleta_lineas[1], + x = 2021, + y = puntos$parados[puntos$sexo == "hombre" & + puntos$anyos == 2022] + ) + + annotate( + geom = "text", label = "mujeres", col = paleta_lineas[2], + x = 2021, + y = puntos$parados[puntos$sexo == "mujer" & + puntos$anyos == 2022] + ) + + scale_y_continuous( + labels = function(x) { + format(x, + big.mark = ".", + decimal.mark = ",", scientific = FALSE + ) + }, + limits = c(0, 150000) + ) + + ggtitle("Las mujeres se han recuperado peor de la crisis de 2007") + + theme_minimal() + +graf +``` + +En este caso, como ya habíamos marcado los puntos de giro en el gráfico del paro total, hemos preferido quitarlos, porque no nos gustan estéticamente, pero aprovechamos el último valor para colocar la etiqueta de la serie, mucho mejor que en una leyenda... ¡y más visible! + + +## Evolución del paro medio anual en función de la edad y el sexo + +Para ver simultáneamente una variable cuantitativa en función de otras dos variables, podemos usar un mapa de calor: + +```{r} +#| code-summary: Preparación de los datos. Selección de variables y años +tabla <- parados_clm |> + select(anyo, sexo, edad, parados) |> + filter(anyo %in% c(2007, 2019, 2022)) +tabla <- tabla |> + group_by(anyo, sexo, edad) |> + summarise(parados = sum(parados)) +``` + + +```{r} +#| code-summary: Heatmap por sexo, edad y año +graf <- ggplot(tabla, aes(x = sexo, y = edad, fill = parados)) + + geom_raster() + + scale_fill_gradientn(colours = paleta_heatmaps) + + facet_wrap(~anyo) + + labs(x = "", y = "") + + theme_bw() + +graf +``` + +Se puede apreciar que en los dos procesos críticos se ha producido un **desplazamiento del paro hacia los intervalos de mayor edad**, especialmente en las **mujeres**. + +El mapa de calor es muy útil para una primera impresión, pero ¿es la mejor visualización? Si nos fijamos, no se aprecia bien la forma de la distribución. Vamos a intentar mejorar el resultado: + +```{r} +#| code-summary: Gráfico de paneles por sexo, edad y año + +ggplot(tabla, aes( + x = edad, y = parados, + col = anyo, fill = anyo +)) + + geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) + + facet_wrap(~sexo, ncol = 2) + + ylab("número de parados") + + scale_y_continuous(labels = function(x) { + format(x, + big.mark = ".", decimal.mark = ",", scientific = FALSE + ) + }) + + theme_bw() +``` + +Ahora se ve mucho mejor que en 2007, antes de ambas crisis, los parados presentan **dos máximos**, en torno a 25 y 60 años, mientras que las desempleadas tienen una distribución bastante centrada entre 30 y 40 años. En cambio, en 2019 y aún más en 2022 se aprecia el desplazamiento de la distribución de los parados de ambos sexos hacia los estratos de edad **mayores de 50 años**. Este desplazamiento es algo más intenso en las mujeres. + + + +# Enfocar la atención donde importa: estamos trabajando para el Instituto de la mujer + + +::: {.callout-tip} + +## Técnicas para destacar los puntos clave en tus visualizaciones. +::: + + + + +## Evolución del paro femenino según el tiempo de búsqueda de empleo + +Hacemos lo mismo que con el sexo, pero incluimos la variable `t_bus_e_agr` (tiempo de búsqueda de empleo): + +```{r} +#| code-summary: Preparación de los datos. Selección de variables y años +tabla <- parados_clm |> + filter(anyo %in% c(2007, 2019, 2022)) |> + select(anyo, sexo, t_bus_e_agr, edad, parados) +tabla <- tabla |> + group_by(anyo, t_bus_e_agr, edad, sexo) |> + summarise(parados = sum(parados)) +``` + + +```{r} +#| code-summary: Gráfico de facetas por sexo, sector económico, edad y año +ggplot(tabla, aes( + x = edad, y = parados, + col = anyo, fill = anyo +)) + + geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) + + facet_wrap(~ sexo * t_bus_e_agr, ncol = 4) + + ylab("número de parados") + + labs(fill = "años:", color = "años:") + + scale_y_continuous(labels = function(x) { + format(x, + big.mark = ".", decimal.mark = ",", scientific = FALSE + ) + }) + + ggtitle("Se dispara el paro de larga duración") + + theme_bw() +``` + +Se aprecia claramente que el tramo con mayor incremento de número de parados es el correspondiente a más de 24 meses de búsqueda de empleo (**paro de muy larga duración**), ya que la crisis financiera de 2008 les redujo su probabilidad de encontrar empleo. Se puede afirmar también que los dos períodos de crisis han provocado la creación de un **paro estructural de larga duración, y de más edad**. Este efecto es mayor en las mujeres. + +## Evolución del paro femenino según el sector de procedencia + +Si repetimos el gráfico según el sector de procedencia, tenemos: + +```{r} +#| code-summary: Preparación de datos. Selección de variables y años +tabla <- parados_clm |> + filter(anyo %in% c(2007, 2019, 2022)) |> + select(anyo, sexo, sector, edad, parados) +tabla <- tabla |> + group_by(anyo, sector, edad, sexo) |> + summarise(parados = sum(parados)) +``` + + +```{r} +#| code-summary: Gráfico de facetas por sexo, sector, edad y año +ggplot(tabla, aes( + x = edad, y = parados, + col = anyo, fill = anyo +)) + + geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) + + facet_wrap(~ sexo * sector, ncol = 5) + + ylab("número de parados") + + labs(fill = "años:", color = "años:") + + scale_y_continuous(labels = function(x) { + format(x, + big.mark = ".", decimal.mark = ",", scientific = FALSE + ) + }) + + ggtitle("El sector servicios acapara el mayor aumento de paro") + + theme_bw() +``` + + + +# Contar una historia + +::: {.callout-tip} + +## Cómo narrar una historia convincente con tus datos. +::: + +## Inicio + +ssssssssssssssss + +## Trama + +ssssssssssssssss + +## Desenlace + +La crisis de 2008 tuvo un gran impacto en el paro registrado de Castilla-La Mancha, multiplicándolo por un factor mayor de 3 desde 2007. Sin embargo, a partir del año 2013 el paro registrado inicia una tendencia a la baja muy pronunciada que aún hoy continúa, después de haber sufrido un rebote debido a la crisis de la COVID-19. + +La **población mayor de 45 años**, el **sector servicios** y los **parados de larga duración** son los grandes perjudicados por ambos procesos de crisis, siendo este **impacto mucho mayor en las mujeres**. diff --git a/historias/renta.qmd b/historias/hist2_renta.qmd similarity index 100% rename from historias/renta.qmd rename to historias/hist2_renta.qmd diff --git a/historias/titanic.qmd b/historias/hist3_titanic.qmd similarity index 100% rename from historias/titanic.qmd rename to historias/hist3_titanic.qmd diff --git a/historias/paises_demog.qmd b/historias/hist4_paises_demog.qmd similarity index 100% rename from historias/paises_demog.qmd rename to historias/hist4_paises_demog.qmd diff --git a/historias/filomena.qmd b/historias/hist5_filomena.qmd similarity index 100% rename from historias/filomena.qmd rename to historias/hist5_filomena.qmd diff --git a/historias/contaminantes.qmd b/historias/hist6_contaminantes.qmd similarity index 100% rename from historias/contaminantes.qmd rename to historias/hist6_contaminantes.qmd diff --git a/historias/accidentes_trafico.qmd b/historias/hist7_accidentes_trafico.qmd similarity index 100% rename from historias/accidentes_trafico.qmd rename to historias/hist7_accidentes_trafico.qmd diff --git a/historias/paro.qmd b/historias/paro.qmd deleted file mode 100644 index bf89e9d..0000000 --- a/historias/paro.qmd +++ /dev/null @@ -1,261 +0,0 @@ ---- -title: "Impacto de las crisis en el paro de Castilla-La Mancha" -author: - - Gema Fernández-Avilés (Gema.FAviles@uclm) - - Isidro Hidalgo (Isidro.Hidalgo@uclm) -format: html -theme: cerulean -highlight-style: ayu-mirage -self-contained: true -date: "`r Sys.Date()`" -code-link: true -number-sections: true -execute: - code-overflow: scroll - echo: true - eval: true - output: true - include: true - freeze: auto - fig-height: 5 - warning: false - code-fold: true - comment: "#>" - code-line-numbers: true - code-copy: true ---- - -# Contexto - -En los últimos 15 años el mundo ha sufrido dos grandes periodos de **crisis económica**: en **2008**, de tipo financiero; y en **2020**, a causa de la pandemia de **COVID-19**. La Directora del Instituto de la Mujer de Castilla-La Mancha quiere que mi equipo analice el impacto de ambas crisis en las mujeres de la región. - -Hemos conseguido del paquete `CDR` un conjunto de datos con, entre otras, algunas variables interesantes: **sexo** y **edad** del parado, **tiempo de búsqueda de empleo** y **sector de procedencia**. El conjunto de datos utilizado comprende la **media anual del paro registrado en la comunidad autónoma de Castilla-La Mancha** desagregado según estas variables, a lo largo de los años que van desde 2007 a 2022. - -```{r} -library(CDR) -library(tidyverse) -library(ggpubr) -library(ggridges) -paleta_heatmaps <- c("#B3FF0080", "#213894FF") -paleta_lineas <- c("blue4", "orange","darkgreen") -data("parados_clm") -parados_clm -help(parados_clm) -``` - -# Impacto de las crisis en la evolución global del paro - -Podemos construir un gráfico lineal para empezar viendo la evolución... - -```{r} -resumen <- parados_clm |> - group_by(anyo) |> - summarise(parados = sum(parados)) |> - mutate(anyo = as.numeric(as.character(anyo))) -anyos <- c(2007, 2013, 2019, 2020, 2022) -paro_anyos <- resumen |> - filter(anyo %in% anyos) |> - select(parados) |> - mutate(parados = round(parados, 0)) -puntos <- data.frame(anyos, paro_anyos) -ggplot(resumen, aes(anyo, parados)) + geom_line() -``` - -El gráfico no tiene una escala de ordenadas realista, y es muy simple. No tiene título. Vamos a mejorarlo un poco... - -```{r} -graf <- ggplot(resumen, aes(anyo, parados)) + - geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) + - xlab("")+ ylab("número de parados") + - geom_point(puntos, mapping = aes(x = anyos, y = parados), - shape = "circle filled", size = 2.5, fill = paleta_lineas[1], - alpha = 0.8) + - theme(legend.position = "none", - axis.text = element_text(size = 10), - axis.title.y = element_text(hjust = 1), - strip.text = element_text(size = 9)) + - scale_y_continuous(labels = function(x) format(x, big.mark = ".", - decimal.mark = ",", scientific = FALSE), - limits = c(0, 300000)) + - ggtitle("Impacto de las crisis en el paro de Castilla-La Mancha") -graf -``` - -En adelante, vamos a tomar como puntos de referencia los años previos a las crisis: 2007 y 2019, y el último año de datos, 2022. Se puede observar que la crisis de la **COVID-19** aumentó el paro en 2020, pero la **crisis de 2008** tuvo un impacto enorme y generalizado en toda la economía, por lo que su efecto en el paro registrado fue mucho mayor, multiplicándolo casi por 3. - -Bien, pero trabajamos para el Instituto de la mujer... ¡hay que separar por sexo!: - -```{r} -resumen_sexo <- parados_clm |> - group_by(anyo, sexo) |> - summarise(parados = sum(parados)) |> - mutate(anyo = as.numeric(as.character(anyo))) -paro_anyos <- resumen_sexo |> - filter(anyo %in% anyos) |> - select(sexo, parados) |> - mutate(parados = round(parados, 0)) -puntos <- data.frame(anyos = rep(anyos, each = 2), - sexo = paro_anyos$sexo, - parados = paro_anyos$parados) - -graf <- ggplot(resumen_sexo, aes(anyo, parados)) + - geom_line(linewidth = 1, col = paleta_lineas[1], alpha = 0.5) + - xlab("")+ ylab("número de parados") + - facet_wrap("sexo") + - geom_point(puntos, mapping = aes(x = anyos, y = parados), - shape = "circle filled", size = 2.5, fill = paleta_lineas[1], - alpha = 0.8) + - theme(legend.position = "none", - axis.text = element_text(size = 10), - axis.title.y = element_text(hjust = 1), - strip.text = element_text(size = 9)) + - scale_y_continuous(labels = function(x) format(x, big.mark = ".", - decimal.mark = ",", scientific = FALSE), - limits = c(0, 300000)) + - ggtitle("Las mujeres se han recuperado peor de la crisis de 2007") -graf -``` - -¿Lo podemos hacer mejor?: sí, uniendo los gráficos, para mejorar la comparación, añadiendo color y otros formatos... - -```{r} -graf <- ggplot(resumen_sexo, aes(anyo, parados)) + - geom_line(data = resumen_sexo[resumen_sexo$sexo == "hombre",], - linewidth = 1, col = paleta_lineas[1], alpha = 0.5) + - geom_line(data = resumen_sexo[resumen_sexo$sexo == "mujer",], - linewidth = 1, col = paleta_lineas[2], alpha = 0.5) + - xlab("")+ ylab("número de parados") + - # geom_point(puntos[puntos$sexo == "hombre" & puntos$anyos == 2022,], - # mapping = aes(x = anyos, y = parados), - # shape = "circle filled", size = 2.5, fill = paleta_lineas[1], - # col = paleta_lineas[1], alpha = 0.8) + - # geom_point(puntos[puntos$sexo == "mujer" & puntos$anyos == 2022,], - # mapping = aes(x = anyos, y = parados), - # shape = "circle filled", size = 2.5, fill = paleta_lineas[2], - # col = paleta_lineas[2], alpha = 0.8) + - annotate(geom = "text", label = "hombres", col = paleta_lineas[1], - x = 2021, - y = puntos$parados[puntos$sexo == "hombre" & - puntos$anyos == 2022]) + - annotate(geom = "text", label = "mujeres", col = paleta_lineas[2], - x = 2021, - y = puntos$parados[puntos$sexo == "mujer" & - puntos$anyos == 2022]) + - theme(axis.title.y = element_text(hjust = 1), - panel.background = element_rect(fill = "white"), - axis.line = element_line(color = "lightgrey"), - panel.grid = element_line(color = rgb(.95,.95,.95,1))) + - scale_y_continuous(labels = function(x) format(x, big.mark = ".", - decimal.mark = ",", scientific = FALSE), - limits = c(0, 150000)) + - ggtitle("Las mujeres se han recuperado peor de la crisis de 2007") -graf -``` -En este caso, como ya habíamos marcado los puntos de giro en el gráfico del paro total, hemos preferido quitarlos, porque no nos gustan estéticamente, pero aprovechamos el último valor para colocar la etiqueta de la serie, mucho mejor que en una leyenda... - -# Evolución del paro medio anual en función de la edad y el sexo - -Para ver simultáneamente una variable cuantitativa en función de otras dos variables, podemos usar un mapa de calor: - -```{r} -tabla <- parados_clm |> - select(anyo, sexo, edad, parados) |> - filter(anyo %in% c(2007, 2019, 2022)) -tabla <- tabla |> - group_by(anyo, sexo, edad) |> - summarise(parados = sum(parados)) -graf <- ggplot(tabla, aes(x = sexo, y= edad, fill = parados)) + - geom_raster() + - scale_fill_gradientn(colours = paleta_heatmaps) + - facet_wrap(~ anyo) + - labs(x = "", y = "") + - theme(axis.text = element_text(size = 10, face = "bold"), - axis.title = element_text(size = 10, face = "bold"), - strip.text = element_text(size = 10, face = "bold")) -graf -``` - -Se puede apreciar que en los dos procesos críticos se ha producido un **desplazamiento del paro hacia los intervalos de mayor edad**, especialmente en las **mujeres**. - -El mapa de calor es muy útil para una primera impresión, pero ¿es la mejor visualización? Si nos fijamos, no se aprecia bien la forma de la distribución. Vamos a intentar mejorar el resultado: - -```{r} -ggplot(tabla, aes(x = edad, y = parados, - col = anyo, fill = anyo)) + - geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) + - facet_wrap(~ sexo, ncol = 2) + - ylab("número de parados") + - scale_y_continuous(labels = function(x) format(x, - big.mark = ".", decimal.mark = ",", scientific = FALSE)) + - theme(axis.text = element_text(size = 10, face = "bold"), - axis.title = element_text(size = 10, face = "bold"), - strip.text = element_text(size = 10, face = "bold"), - axis.title.x = element_text(hjust = 0), - axis.title.y = element_text(hjust = 1)) -``` - -Ahora se ve mucho mejor que en 2007, antes de ambas crisis, los parados presentan **dos máximos**, en torno a 25 y 60 años, mientras que las desempleadas tienen una distribución bastante centrada entre 30 y 40 años. En cambio, en 2019 y aún más en 2022 se aprecia el desplazamiento de la distribución de los parados de ambos sexos hacia los estratos de edad **mayores de 50 años**. Este desplazamiento es algo más intenso en las mujeres. - - -# Evolución del paro femenino según el tiempo de búsqueda de empleo - -Hacemos lo mismo que con el sexo, pero incluimos la variable `t_bus_e_agr` (tiempo de búsqueda de empleo): - -```{r} -tabla <- parados_clm |> - filter(anyo %in% c(2007, 2019, 2022)) |> - select(anyo, sexo, t_bus_e_agr, edad, parados) -tabla <- tabla |> - group_by(anyo, t_bus_e_agr, edad, sexo) |> - summarise(parados = sum(parados)) -ggplot(tabla, aes(x = edad, y = parados, - col = anyo, fill = anyo)) + - geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) + - facet_wrap(~ sexo * t_bus_e_agr, ncol = 4) + - ylab("número de parados") + - labs(fill = "años:", color = "años:") + - scale_y_continuous(labels = function(x) format(x, - big.mark = ".", decimal.mark = ",", scientific = FALSE)) + - ggtitle("Se dispara el paro de larga duración") + - theme(axis.text = element_text(size = 10, face = "bold"), - axis.title = element_text(size = 10, face = "bold"), - strip.text = element_text(size = 10, face = "bold"), - axis.title.x = element_text(hjust = 0), - axis.title.y = element_text(hjust = 1)) -``` - -Se aprecia claramente que el tramo con mayor incremento de número de parados es el correspondiente a más de 24 meses de búsqueda de empleo (**paro de muy larga duración**), ya que la crisis financiera de 2008 les redujo su probabilidad de encontrar empleo. Se puede afirmar también que los dos períodos de crisis han provocado la creación de un **paro estructural de larga duración, y de más edad**. Este efecto es mayor en las mujeres. - -# Evolución del paro femenino según el sector de procedencia - -Si repetimos el gráfico según el sector de procedencia, tenemos: - -```{r} -tabla <- parados_clm |> - filter(anyo %in% c(2007, 2019, 2022)) |> - select(anyo, sexo, sector, edad, parados) -tabla <- tabla |> - group_by(anyo, sector, edad, sexo) |> - summarise(parados = sum(parados)) -ggplot(tabla, aes(x = edad, y = parados, - col = anyo, fill = anyo)) + - geom_ribbon(aes(ymin = 0, ymax = tabla$parados), alpha = 0.4) + - facet_wrap(~ sexo * sector, ncol = 5) + - ylab("número de parados") + - labs(fill = "años:", color = "años:") + - scale_y_continuous(labels = function(x) format(x, - big.mark = ".", decimal.mark = ",", scientific = FALSE)) + - ggtitle("El sector servicios acapara el mayor aumento de paro") + - theme(axis.text = element_text(size = 10, face = "bold"), - axis.title = element_text(size = 10, face = "bold"), - strip.text = element_text(size = 10, face = "bold"), - axis.title.x = element_text(hjust = 0), - axis.title.y = element_text(hjust = 1)) -``` - - -# Conclusiones - -La crisis de 2008 tuvo un gran impacto en el paro registrado de Castilla-La Mancha, multiplicándolo por un factor mayor de 3 desde 2007. Sin embargo, a partir del año 2013 el paro registrado inicia una tendencia a la baja muy pronunciada que aún hoy continúa, después de haber sufrido un rebote debido a la crisis de la COVID-19. - -La **población mayor de 45 años**, el **sector servicios** y los **parados de larga duración** son los grandes perjudicados por ambos procesos de crisis, siendo este **impacto mucho mayor en las mujeres**. diff --git a/storytelling.Rproj b/storytelling.Rproj index c03d239..d063e8b 100644 --- a/storytelling.Rproj +++ b/storytelling.Rproj @@ -1,5 +1,4 @@ Version: 1.0 -ProjectId: 7937cfc9-6468-43bb-b5c6-a14d1915b580 RestoreWorkspace: Default SaveWorkspace: Default diff --git a/u9-galeria_horrores-speaker.html b/u8-galeria_horrores-speaker.html similarity index 100% rename from u9-galeria_horrores-speaker.html rename to u8-galeria_horrores-speaker.html diff --git a/u9-galeria_horrores.qmd b/u8-galeria_horrores.qmd similarity index 100% rename from u9-galeria_horrores.qmd rename to u8-galeria_horrores.qmd diff --git a/u8-tips.qmd b/u8-tips.qmd deleted file mode 100644 index 9ce9563..0000000 --- a/u8-tips.qmd +++ /dev/null @@ -1,155 +0,0 @@ ---- -title: "Storytelling visual con R" -subtitle: "Curso formativo para el PDI. Universidad de Castilla-La Mancha" -author: - - name: Gema Fernández-Avilés - email: gema.faviles@uclm.es - - name: Isidro Hidalgo - email: isidro.hidalgo@uclm.es -#date: "`r Sys.Date()`" -bibliography: biblio.bib -format: - revealjs: - theme: theme-dds.scss - scrollable: true - toc-title: Index - toc: false - slide-number: c/t - fig-align: center - show-slide-number: all - transition: fade - background-transition: fade - height: 900 - width: 1600 - fontcolor: "#262d36" - highlight-style: ayu-mirage - multiplex: true - embed-resources: true - code-overflow: scroll - pdf: - toc: true - number-sections: true - colorlinks: true - out-width: "50%" -code-link: true -execute: - code-overflow: scroll - echo: true - freeze: auto - eval: true - fig-height: 6 - warning: false - code-fold: true - comment: "#>" - code-line-numbers: true - code-copy: true ---- - - -# {#title-slide data-menu-title="Storytelling con R" aria-label="dddd."} - - - -[Unidad 2]{.custom-title-1} [La importancia del contexto]{.custom-title-2} - -[La importancia del contexto]{.custom-author} - -```{r} -#| echo: false -library(scales) -library(knitr) -library(kableExtra) -options(dplyr.print_min = 6, dplyr.print_max = 6) -ggplot2::theme_set(ggplot2::theme_minimal(base_size = 18)) -``` - - - -# Agenda - -1. Objetivos de aprendizaje - -2. Resultados esperados - -3. Conceptos clave - -4. ¿Qué hemos aprendido? - - - -# 1. Objetivos de aprendizaje `r emo::ji("hit")` {background-color="black"} - -- Saber ......... - - -- Recomendar biografía: - - + `r emo::ji("book")` @wickham2016r ........ - - - - - -# 2. Resultados esperados `r emo::ji("winner")` {background-color="#017eae"} - -![**Interfaz gráfica de Rstudio**](img/04-rdo-esp.png){width="60%"} - - -# 3. Conceptos clave `r emo::ji("document")` {background-color="#AB5484"} - - -## xxxxxxxxxxxxxxx - - - - - -# xxxxxxxxx: la clave `r emo::ji("document")` {background-color="#AB5484"} - - -# RStudio {background-color="#017eae"} -![**Fuente @ismay2019statistical**](img/04-open-rstudio.png){width="60%"} - - - - - - - - - - - - - -# 4. ¿Qué hemos aprendido? `r emo::ji("book")` {background-color="black"} - -+ Lo básico de **R**. - -+ .............. - - - -# Nuestra filosofía `r emo::ji("book")`: *learning by doing* {background-color="#AB5484"} - - -+ Recuerda que los ordenadores actualmente no son inteligentes. - -+ Filosofía: `copy, paste, and tweak`. - -+ La mejor forma de aprender código es haciéndolo. - -+ La práctica es la clave. - - - -## Referencias - - - -```{r eval=FALSE, include=FALSE, echo=FALSE} -knitr::purl("u2-imp-contexto.qmd") -``` - - -