Este proyecto se centra en el análisis de clustering de los datos de la Encuesta de Factores de Riesgo de Comportamiento (BRFSS, por sus siglas en inglés) utilizando PySpark y TensorFlow. A través de una serie de notebooks Jupyter, se realiza una exploración detallada y un procesamiento de los datos de salud pública para identificar patrones y agrupaciones significativas en el comportamiento y las condiciones de salud de los encuestados.
El proyecto está dividido en cinco notebooks principales, cada uno enfocado en una etapa específica del proceso de análisis:
- Transformación Inicial: Conversión de datos desde formato
.xpt
a.csv
, facilitando su manipulación con PySpark. - Filtrado Inicial: Limpieza y selección de las variables relevantes para el estudio a partir de la documentación oficial de la BRFSS.
- Imputación de Valores Nulos: Técnicas de imputación aplicadas para manejar los valores ausentes en el conjunto de datos.
- Análisis Exploratorio: Visualización y exploración de los datos para obtener insights preliminares sobre las características demográficas y de salud de los encuestados.
- Aplicación de Algoritmos de Clustering: Uso de autoencoders para reducción de dimensionalidad seguido por el algoritmo K-Means para identificar clusters en los datos.
Los análisis realizados revelaron varios patrones y clusters significativos entre los encuestados, destacando diferencias en los comportamientos de salud y riesgo según variables demográficas y de salud. Los resultados del proyecto pueden ser útiles para informar políticas de salud pública y programas de intervención dirigidos.