Spaces:

gestiodinamica
/

continental_edusights

Running

App Files Files Community

jcmachicao commited on Jun 28, 2024

Commit

08a1557

verified ·

1 Parent(s): 3f8da09

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -9

app.py CHANGED Viewed

@@ -1,5 +1,8 @@
 # Actualizado por: José Carlos Machicao, Fecha de actualización: 2024_06_24, Taller Lima
 import streamlit as st
 import pandas as pd
 import numpy as np
@@ -12,6 +15,7 @@ from sklearn.decomposition import PCA
 pd.DataFrame.iteritems = pd.DataFrame.items
 scaler = StandardScaler()
 st.title("Visualización y Clusterización automática de Data de Estudiantes")
 st.write("Cargue el archivo PKL para visualizar el análisis de su contenido.")
 uploaded_file = st.file_uploader("Cargar archivo: ", type='pkl')
@@ -24,8 +28,10 @@ if uploaded_file is not None:
     df_050 = df.dropna(axis=0)
     df_050.index = df_050.DNI
     st.write(df_050.shape)
     MAX_CAT = st.slider('Maximo numero de categorias: ', 10, 30, 20)
     # Depuración de columnas sólo para aquellas que contribuyen al clustering
     col_selec = []
     for col in df_050.columns:
@@ -36,6 +42,7 @@ if uploaded_file is not None:
     st.header('Lista de variables que será usada para la clusterización')
     st.write(' '.join(col_selec))
     df_100 = df_050[col_selec]
     df_110 = pd.get_dummies(df_100)
@@ -65,15 +72,13 @@ if uploaded_file is not None:
     #st.write(data_200['ESTADO_ESTUDIANTE'].unique())
     #VIRTU = st.selectbox('Virtual: ', ['UVIR', 'PCGT'])
     INGRE = st.selectbox('Estado: ', ['Abandono', 'Activo'])
     data_210 = data_200[data_200['ESTADO_INGRESANTE']==INGRE]
     fig2 = px.scatter(data_210, x='pca_1', y='pca_2', title='Distribución PCA', width=800, height=800)
     st.plotly_chart(fig2)
     st.header('Diagrama de densidades')
     GRIDSIZEX = st.slider('Seleccione la densidad de la grilla de hexágonos: ', 0, 100, 35)
     plt.figure(figsize=(10, 8))
@@ -90,7 +95,7 @@ if uploaded_file is not None:
     densidades = pd.DataFrame(plt_extracto.get_array())
     densidades.hist(bins=50, log=True)
     plt.ylabel('Cantidad de Ocurrencias')
-    plt.xlabel('Frecuencia')
     plt.title('Histograma de Densidades')
     st.pyplot(plt)
@@ -107,14 +112,14 @@ if uploaded_file is not None:
     st.write(patrones_df)
-    NUM_CASOS = st.slider("¿Cuántos casos elige explorar?", 1, 10, 3)
     st.write('Usted ha elegido ', NUM_CASOS, 'casos.')
     radiohex = (data_210.pca_1.max() - data_210.pca_1.min())/GRIDSIZEX/2
     st.header('Visualización de Caso Particular')
-    CASOX = st.selectbox('Elija el caso: ', range(NUM_CASOS))
     a, b = patrones_df.col1[CASOX], patrones_df.col2[CASOX]
     enfoqueX = data_210[
@@ -136,7 +141,7 @@ if uploaded_file is not None:
     st.subheader('Poblaciones por Hexágonos Elegidos')
-    for c in range(NUM_CASOS):
         a, b = patrones_df.col1[c], patrones_df.col2[c]
         enfoqueX = data_210[
             (data_210.pca_1 > a - radiohex) &
@@ -149,7 +154,7 @@ if uploaded_file is not None:
     st.header('Descarga de Items de Hexagonos Densos Elegidos')
     enfoques = pd.DataFrame()
-    for c in range(NUM_CASOS):
         a, b = patrones_df.col1[c], patrones_df.col2[c]
         enfoqueX = data_210[
             (data_210.pca_1 > a - radiohex) &
@@ -162,7 +167,7 @@ if uploaded_file is not None:
     st.write(enfoques.columns)
-    enfoques2 = enfoques.drop(columns=['pca_1', 'pca_2'])
     csv = enfoques2.to_csv(encoding='iso-8859-1')
     st.download_button(

 # Actualizado por: José Carlos Machicao, Fecha de actualización: 2024_06_24, Taller Lima
+# Actualizado por: José Carlos Machicao, Fecha de actualización: 2024_06_28, Taller Arequipa
+# Esta vinculado a los PKL de https://sites.google.com/continental.edu.pe/edusights/inicio
+# Importacion de librerias
 import streamlit as st
 import pandas as pd
 import numpy as np
 pd.DataFrame.iteritems = pd.DataFrame.items
 scaler = StandardScaler()
+# Títulos y carga de archivo
 st.title("Visualización y Clusterización automática de Data de Estudiantes")
 st.write("Cargue el archivo PKL para visualizar el análisis de su contenido.")
 uploaded_file = st.file_uploader("Cargar archivo: ", type='pkl')
     df_050 = df.dropna(axis=0)
     df_050.index = df_050.DNI
+    # Seleccion de categorias
     st.write(df_050.shape)
     MAX_CAT = st.slider('Maximo numero de categorias: ', 10, 30, 20)
     # Depuración de columnas sólo para aquellas que contribuyen al clustering
     col_selec = []
     for col in df_050.columns:
     st.header('Lista de variables que será usada para la clusterización')
     st.write(' '.join(col_selec))
+    # Conversion a dummies
     df_100 = df_050[col_selec]
     df_110 = pd.get_dummies(df_100)
     #st.write(data_200['ESTADO_ESTUDIANTE'].unique())
     #VIRTU = st.selectbox('Virtual: ', ['UVIR', 'PCGT'])
+    # Diagramacion de Scatter con resultado PCA
     INGRE = st.selectbox('Estado: ', ['Abandono', 'Activo'])
     data_210 = data_200[data_200['ESTADO_INGRESANTE']==INGRE]
     fig2 = px.scatter(data_210, x='pca_1', y='pca_2', title='Distribución PCA', width=800, height=800)
     st.plotly_chart(fig2)
     st.header('Diagrama de densidades')
     GRIDSIZEX = st.slider('Seleccione la densidad de la grilla de hexágonos: ', 0, 100, 35)
     plt.figure(figsize=(10, 8))
     densidades = pd.DataFrame(plt_extracto.get_array())
     densidades.hist(bins=50, log=True)
     plt.ylabel('Cantidad de Ocurrencias')
+    plt.xlabel('Densidad Estudiantes por Area')
     plt.title('Histograma de Densidades')
     st.pyplot(plt)
     st.write(patrones_df)
+    NUM_CASOS = st.slider("¿Qué rango de valores elige explorar?", 1, 10, value=(3,7))
     st.write('Usted ha elegido ', NUM_CASOS, 'casos.')
     radiohex = (data_210.pca_1.max() - data_210.pca_1.min())/GRIDSIZEX/2
     st.header('Visualización de Caso Particular')
+    CASOX = st.selectbox('Elija el caso: ', NUM_CASOS)
     a, b = patrones_df.col1[CASOX], patrones_df.col2[CASOX]
     enfoqueX = data_210[
     st.subheader('Poblaciones por Hexágonos Elegidos')
+    for c in NUM_CASOS:
         a, b = patrones_df.col1[c], patrones_df.col2[c]
         enfoqueX = data_210[
             (data_210.pca_1 > a - radiohex) &
     st.header('Descarga de Items de Hexagonos Densos Elegidos')
     enfoques = pd.DataFrame()
+    for c in NUM_CASOS:
         a, b = patrones_df.col1[c], patrones_df.col2[c]
         enfoqueX = data_210[
             (data_210.pca_1 > a - radiohex) &
     st.write(enfoques.columns)
+    enfoques2 = enfoques.drop(columns=['pca_1', 'pca_2', 'HexDens', 'ESTADO_INGRESANTE'])
     csv = enfoques2.to_csv(encoding='iso-8859-1')
     st.download_button(