Skip to content

Análisis de clustering con datos BRFSS usando PySpark y TensorFlow. Exploramos, procesamos y visualizamos patrones en salud pública a través de 5 notebooks, abarcando desde la transformación de datos hasta la aplicación de algoritmos de clustering, revelando insights valiosos.

Notifications You must be signed in to change notification settings

patriciaapenat/BRFSS-clustering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 

Repository files navigation

Made with Python Made with Jupyter

Proyecto de Clustering con BRFSS

Este proyecto se centra en el análisis de clustering de los datos de la Encuesta de Factores de Riesgo de Comportamiento (BRFSS, por sus siglas en inglés) utilizando PySpark y TensorFlow. A través de una serie de notebooks Jupyter, se realiza una exploración detallada y un procesamiento de los datos de salud pública para identificar patrones y agrupaciones significativas en el comportamiento y las condiciones de salud de los encuestados.

Estructura del Proyecto

El proyecto está dividido en cinco notebooks principales, cada uno enfocado en una etapa específica del proceso de análisis:

  1. Transformación Inicial: Conversión de datos desde formato .xpt a .csv, facilitando su manipulación con PySpark.
  2. Filtrado Inicial: Limpieza y selección de las variables relevantes para el estudio a partir de la documentación oficial de la BRFSS.
  3. Imputación de Valores Nulos: Técnicas de imputación aplicadas para manejar los valores ausentes en el conjunto de datos.
  4. Análisis Exploratorio: Visualización y exploración de los datos para obtener insights preliminares sobre las características demográficas y de salud de los encuestados.
  5. Aplicación de Algoritmos de Clustering: Uso de autoencoders para reducción de dimensionalidad seguido por el algoritmo K-Means para identificar clusters en los datos.

Resultados

Los análisis realizados revelaron varios patrones y clusters significativos entre los encuestados, destacando diferencias en los comportamientos de salud y riesgo según variables demográficas y de salud. Los resultados del proyecto pueden ser útiles para informar políticas de salud pública y programas de intervención dirigidos.

Tecnologías Utilizadas

pandas python scikit_learn seaborn tensorflow Spark Hadoop

About

Análisis de clustering con datos BRFSS usando PySpark y TensorFlow. Exploramos, procesamos y visualizamos patrones en salud pública a través de 5 notebooks, abarcando desde la transformación de datos hasta la aplicación de algoritmos de clustering, revelando insights valiosos.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published