-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathPD_parte3_analiticaSimple.py
41 lines (30 loc) · 1.51 KB
/
PD_parte3_analiticaSimple.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
from datasets import load_dataset
import numpy as np
import pandas as pd
dataset = load_dataset("mstz/heart_failure")
data = dataset["train"]
#'data' es el objeto Dataset y 'age' es la característica de las edades
edades = np.array(data["age"])
# Calcular el promedio de edad
promedio_edad = np.mean(edades)
print("El promedio de edad de las personas participantes en el estudio es:", promedio_edad,"\n")
# Convertir el Dataset en un DataFrame de Pandas
df = pd.DataFrame(data)
# Separar el DataFrame en dos según el valor de 'is_dead'
df_fallecidos = df[df['is_dead'] == 1]
df_sobrevivientes = df[df['is_dead'] == 0]
# Calcular los promedios de las edades de cada dataset
promedio_edad_fallecidos = df_fallecidos['age'].mean()
promedio_edad_sobrevivientes = df_sobrevivientes['age'].mean()
# Imprimir los promedios de edad
print("Promedio de edad de fallecidos:", promedio_edad_fallecidos)
print("Promedio de edad de sobrevivientes:", promedio_edad_sobrevivientes,"\n")
# Verificar los tipos de datos en cada columna
tipos_de_datos = df.dtypes
print("Tipos de datos en cada columna:")
print(tipos_de_datos,"\n")
# Calcular la cantidad de hombres fumadores vs mujeres fumadoras
cantidad_hombres_fumadores = df[(df['is_male'] == 1) & (df['is_smoker'] == 1)].shape[0]
cantidad_mujeres_fumadoras = df[(df['is_male'] == 0) & (df['is_smoker'] == 1)].shape[0]
print("Cantidad de hombres fumadores:", cantidad_hombres_fumadores)
print("Cantidad de mujeres fumadoras:", cantidad_mujeres_fumadoras,"\n")