Spaces:

gestiodinamica
/

continental_edusights

Sleeping

App Files Files Community

jcmachicao commited on Jun 20, 2024

Commit

1ab9f2b

verified ·

1 Parent(s): 2bd05f6

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -14

app.py CHANGED Viewed

@@ -31,13 +31,13 @@ if uploaded_file is not None:
         if len(u_col) < 25:
             col_selec.append(col)
-    st.write('Esta es la lista de variables que será usada para la clusterización.')
-    st.write(col_selec)
     df_100 = df_050[col_selec]
     df_110 = pd.get_dummies(df_100)
-    st.write('Esta es la matriz de correlación de todas las categorías')
     corr_matrix = df_110.corr()
     plt.figure(figsize=(21, 21))  # Adjust the figure size as needed
@@ -45,7 +45,7 @@ if uploaded_file is not None:
     plt.title('Mapa de Calor de la Correlation de Variables')
     st.pyplot(plt)
-    st.write('A continuación se va a hacer el clustering usando PCA.')
     X_sc = scaler.fit_transform(df_110)
     st.write('La forma de la data es: ', X_sc.shape)
@@ -57,19 +57,12 @@ if uploaded_file is not None:
     data_200['pca_1'] = X_pca[:, 0]
     data_200['pca_2'] = X_pca[:, 1]
-    plt.figure(figsize=(8, 8))
-    plt.scatter(data_200.pca_1, data_200.pca_2)
-    plt.title('Diagrama de Dispersión PCA')
-    plt.xlabel('Principal Component 1')
-    plt.ylabel('Principal Component 2')
-    st.pyplot(plt)
     st.write(data_200.columns)
     #st.write(data_200['COD_DEPARTAMENTO'].unique())
     #st.write(data_200['ESTADO_ESTUDIANTE'].unique())
     #VIRTU = st.selectbox('Virtual: ', ['UVIR', 'PCGT'])
     INGRE = st.selectbox('Estado: ', ['Abandono', 'Activo'])
     data_210 = data_200[data_200['ESTADO_INGRESANTE']==INGRE]
@@ -77,6 +70,8 @@ if uploaded_file is not None:
     fig2 = px.scatter(data_210, x='pca_1', y='pca_2', title='Distribución PCA', width=800, height=800)
     st.plotly_chart(fig2)
     GRIDSIZEX = st.slider('Seleccione la densidad de la grilla de hexágonos: ', 0, 100, 10)
     plt.figure(figsize=(10, 8))
@@ -86,12 +81,15 @@ if uploaded_file is not None:
     plt.xlabel('Principal Component 1')
     plt.ylabel('Principal Component 2')
     st.pyplot(plt)
     plt.figure(figsize=(7, 4))
     densidades = pd.DataFrame(plt_extracto.get_array())
     densidades.hist(bins=50, log=True)
     plt.xlabel('Cantidad de Ocurrencias')
     plt.ylabel('Frecuencia')
     plt.title('Histograma de Densidades')
     st.pyplot(plt)
@@ -102,6 +100,9 @@ if uploaded_file is not None:
     offsets_df.columns = ['col1', 'col2', 'densidad']
     offset_selec = offsets_df.sort_values(by='densidad', ascending=False)
     patrones_df = pd.DataFrame(index = [0,1,2,3,4,5,6,7,8,9], data=offset_selec.values[0:10], columns=offset_selec.columns)
     st.write(patrones_df)
     NUM_CASOS = st.slider("¿Cuántos casos elige explorar?", 1, 10, 3)
@@ -120,11 +121,18 @@ if uploaded_file is not None:
     ]
     st.write(enfoqueX.shape)
     LISTA_SELEC = st.multiselect('Escoja la variable de color: ', list(enfoqueX.columns))
     st.write(LISTA_SELEC)
     fig2 = px.parallel_categories(data_frame=enfoqueX[list(LISTA_SELEC)])
     st.plotly_chart(fig2)

         if len(u_col) < 25:
             col_selec.append(col)
+    st.header('Lista de variables que será usada para la clusterización')
+    st.write(' '.join(col_selec))
     df_100 = df_050[col_selec]
     df_110 = pd.get_dummies(df_100)
+    st.header('Matriz de correlación de todas las categorías')
     corr_matrix = df_110.corr()
     plt.figure(figsize=(21, 21))  # Adjust the figure size as needed
     plt.title('Mapa de Calor de la Correlation de Variables')
     st.pyplot(plt)
+    st.header('Clustering usando PCA')
     X_sc = scaler.fit_transform(df_110)
     st.write('La forma de la data es: ', X_sc.shape)
     data_200['pca_1'] = X_pca[:, 0]
     data_200['pca_2'] = X_pca[:, 1]
     st.write(data_200.columns)
     #st.write(data_200['COD_DEPARTAMENTO'].unique())
     #st.write(data_200['ESTADO_ESTUDIANTE'].unique())
     #VIRTU = st.selectbox('Virtual: ', ['UVIR', 'PCGT'])
     INGRE = st.selectbox('Estado: ', ['Abandono', 'Activo'])
     data_210 = data_200[data_200['ESTADO_INGRESANTE']==INGRE]
     fig2 = px.scatter(data_210, x='pca_1', y='pca_2', title='Distribución PCA', width=800, height=800)
     st.plotly_chart(fig2)
+    st.header('Diagrama de densidades')
     GRIDSIZEX = st.slider('Seleccione la densidad de la grilla de hexágonos: ', 0, 100, 10)
     plt.figure(figsize=(10, 8))
     plt.xlabel('Principal Component 1')
     plt.ylabel('Principal Component 2')
     st.pyplot(plt)
+    st.header('Histograma de Densidades')
     plt.figure(figsize=(7, 4))
     densidades = pd.DataFrame(plt_extracto.get_array())
     densidades.hist(bins=50, log=True)
     plt.xlabel('Cantidad de Ocurrencias')
     plt.ylabel('Frecuencia')
     plt.title('Histograma de Densidades')
     st.pyplot(plt)
     offsets_df.columns = ['col1', 'col2', 'densidad']
     offset_selec = offsets_df.sort_values(by='densidad', ascending=False)
     patrones_df = pd.DataFrame(index = [0,1,2,3,4,5,6,7,8,9], data=offset_selec.values[0:10], columns=offset_selec.columns)
+    st.header('Tabla de Densidades')
     st.write(patrones_df)
     NUM_CASOS = st.slider("¿Cuántos casos elige explorar?", 1, 10, 3)
     ]
     st.write(enfoqueX.shape)
+    st.header('Diagrama de Coordenadas Paralelas')
     LISTA_SELEC = st.multiselect('Escoja la variable de color: ', list(enfoqueX.columns))
     st.write(LISTA_SELEC)
     fig2 = px.parallel_categories(data_frame=enfoqueX[list(LISTA_SELEC)])
     st.plotly_chart(fig2)
+    st.header('Descarga de Items de Hexagonos Densos Elegidos')