Código
library(readr)
library(knitr)
library(kableExtra)
library(summarytools)
library(dplyr)
library(skimr)
library(ggplot2)
library(tidyr)Este apartado se divide en tres secciones. Primero, se presentan los datos con los cuales se realiza el informe, detallando las bases de datos disponibles desde un inicio, las tomas de decisiones para el procesamiento de las mismas y la nueva generación de información. En segundo lugar, se presentan las variables disponibles del estudio, junto con su descripción y algunos estadísticos de las variables de interés. Por último, se define la estrategia analítica a utilizar para elaborar los resultados.
library(readr)
library(knitr)
library(kableExtra)
library(summarytools)
library(dplyr)
library(skimr)
library(ggplot2)
library(tidyr)| Base de datos | Código de la base | N | Unidad de análisis | Formato | Base creada |
|---|---|---|---|---|---|
| Promedio final | nota_unica.rds | 2578 | Estudiantes | Wide | No |
| Notas por curso | notas_cursos.rds | 291675 | Estudiantes | Long | No |
| Base madre | base_madre.rds | 1619 | Estudiantes | Wide | Sí |
| Notas Sociología | df_socio.rds | 373 | Estudiantes | Wide | Sí |
| Notas Psicología | df_psico.rds | 442 | Estudiantes | Wide | Sí |
| Notas Antropología | df_antropo.rds | 387 | Estudiantes | Wide | Sí |
| Notas Educación Parvularia | df_parvularia.rds | 180 | Estudiantes | Wide | Sí |
| Notas Trabajo Social | df_trabajo.rds | 237 | Estudiantes | Wide | Sí |
| Cursos Sociología | cc_socio.rds | 97 | Cursos | Long | Sí |
Al comienzo de este estudio, se entregaron dos bases de datos que fueron construidas a partir de información de UCampus: la base Promedio final y Notas por curso. La primera base contiene información sobre estudiantes de todas las carreras de FACSO entre los años 2020 y 2025. Cada estudiante tiene una nota que representa el promedio de todas sus calificaciones semestrales. Además, presenta variables de caracterización sociodemográficas y académicas, las cuales serán detalladas más adelante. La segunda base tiene las notas disgregadas por curso entre 2021 y 2024, es decir, no posee una variable que señale el promedio final del estudiante, pero sí las calificaciones de todos los ramos que cursaron durante ese período. No obstante, no cuenta con variables de caracterización como la base Promedio final.
A partir de las dos bases que fueron dispuestas para trabajar, se generaron varias bases de datos con el fin de llegar a una construcción de los datos que facilitara lo máximo posible realizar los análisis posteriores. Por ello, la primera base que se generó fue la Base madre, que es un dataframe creado a partir del merge de las bases Promedio final y Notas por curso, uniéndolas mediante el RUT del estudiante. Se decidió esto para tener una base que contuviera la mayor cantidad de información posible, obteniendo las notas por curso y variables de caracterización en un solo dataframe.
Posterior a la generación de la Base madre, se crearon múltiples bases filtrando por carrera, por lo que la estructura de los datos es idéntica, lo cual aporta a la eficiencia de los análisis y reproducibilidad del código. En este marco, todas las bases que parten con Notas seguido del nombre de la carrera, fueron construidas de esta forma. Todas las bases mencionadas tienen como unidad de análisis a los estudiantes, pero también se generó un dataframe que estuviera centrado en los cursos, en orden de poder estudiar las notas a la luz de las características de los cursos de la Facultad. Esta es la última base de Tabla 3.1 llamada cc_socio.rds.
La configuración de la muestra analítica respecto a los cursos posee los siguientes lineamientos. En primer lugar, solamente se consideraron cursos de carácter obligatorio, pues no hay ninguna variable que permita identificar los cursos optativos y los de malla. Esto podría ser categorizado en un próximo estudio. Tampoco se consideraron cursos del ciclo de titulación, pues tienen una operacionalización distinta a los demás cursos en términos de evaluación.
Para llevar a cabo los análisis, se utilizan las notas de la base Notas por curso, pues a partir de esta se construyó una nueva variable de promedio de notas por estudiante, la cual se considera más fiable al haber sido procesada por el mismo equipo de investigación. Para la construcción de esta nueva variable de notas, se tomaron las siguientes decisiones: (1) se recodificaron como NA los valores iguales a 0 y 1 debido a que este era su significado real. (2) Para calcular el promedio, se consideraron todos los ramos que cursó un estudiante. En este contexto, si un estudiante cursó tres veces un ramo, en el cual las primeras dos veces lo reprobó y la última lo aprobó, esas tres notas se contemplan para el promedio. Además, se encontraron incoherencias en los promedios entregados por defecto al comparar los promedios de notas construidos, lo que reafirma el uso del indicador creado. Por último, para determinar factores que afectan las notas de los estudiantes, se recurre a variables de caracterización de origen en la base Promedio final.
Todas las bases de datos se pueden encontrar en este repositorio.
| Variable | Codigo | Tipo de variable | Categorias de respuesta | Valores de respuesta | Variable creada |
|---|---|---|---|---|---|
| RUT | id | Numerica | - | - | No |
| Tipo de ingreso a la universidad | ingreso | Categorica | "ESTUDIANTES CIEGOS" "LICENCIADOS Y TITULADOS" "TRANSFERENCIAS EXTERNAS" "EQUIDAD DE GENERO" "DEPORTISTA DESTACADO" "EST. MEDIOS EXTRANJERO" "BEA (BECA EXCELENCIA ACADEMICA)" "SIPEE" "PACE" "PSU" "PUEBLOS INDIGENAS" "DISCAPACIDAD" | - | No |
| Sexo | sexo | Dicotomica | "Hombre" "Mujer" | 0 | 1 | No |
| Nacionalidad | nacionalidad | Categorica | "Chilena" "Otra nacionalidad;Chilena" "Alemana;Venezolana" "Venezolana" "Chilena;Argentina" "Ecuatoriana;Chilena" "Peruana;Chilena" "Otra nacionalidad;Argentina" "Otra nacionalidad;Colombiana" "Peruana" "Ecuatoriana" "Francesa;Chilena" "Boliviana" "Brasileña" "Colombiana" "Suiza;Chilena" "Costarricense;Chilena" "Italiana;Chilena" "Argentina" "Uruguaya" "Chilena;Uruguaya" | - | No |
| Origen etnico | origen_etnico | Categorica | "NINGUNA" "MAPUCHE" "AYMARA" NA "DIAGUITA" "QUECHUA" "SIN INFORMACION" "AFRODESCENDIENTE CHILENO" "ATACAMEÑO o LICKANANTAI" "RAPA NUI" "COLLA" | - | No |
| Situacion academica | sit_academica | Categorica | "MATRICULADO" "POSTERGACION 1º SEMESTRE" "POSTERGACION ANUAL" "TRANSFERENCIA INTERNA" "RENUNCIA A LA CARRERA" | - | No |
| Carrera | carrera | Categorica | "PSICOLOGIA" "ANTROPOLOGIA ARQUEOLOGIA" "SOCIOLOGIA" "TRABAJO SOCIAL" "PEDAGOGIA EN EDUCACION PARVULARIA" | - | No |
| Cohorte | cohorte | Categorica | 2020 2021 2022 2023 2024 2025 | - | No |
| Tipo de colegio de procedencia | colegio | Categorica | "S/INF" "MUNICIPAL" "PARTICULAR SUBVENCIONADO" "PARTICULAR PAGADO" | - | No |
| Año de egreso de enseñanza media | egreso_emedia | Categorica | 2003 2006 2007 2013 2015 2016 2017 2019 2018 2009 2014 2020 2011 2008 2012 2021 2002 2022 2001 2010 2023 1986 2005 | - | No |
| Promedio de enseñanza media | promedio_emedia | Categorica | - | - | No |
| Nivel socioeconómico | nse | Ordinal | 0 5 4 7 3 8 2 6 1 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | No |
| Percentil en PAES o PSU | pct_paes_psu | Numerica | - | - | Sí |
| Decil en PAES o PSU | decil_paes_psu | Numerica | - | - | Sí |
| Region de origen | region_origen | Categorica | "REGION METROPOLITANA" "REGION DEL BIOBÍO" "REGIÓN DE ÑUBLE" "REGION DE LOS LAGOS" "REGION DE LA ARAUCANIA" "REGION DE VALPARAÍSO" "REGION DEL LIB. B. OHIGGINS" "SIN INFORMACIÓN" "REGION DE TARAPACA" "REGION DE COQUIMBO" "REGHON DE COQUIMBO" "REGION DEL MAULE" "REGION DE MAGALLANES" "REGION DE AYSÉN" "REGION DE ARICA Y PARINACOTA" "REGION DE METROPOLITANA" "REGION DE LOS RIOS" "REGION DE ANTOFAGASTA" "REGION DE IQUIQUE Y PARINACOTA" "REGION DE ATACAMA" "REGION DE O'HIGGINS" "REGION DEL ÑUBLE" | - | No |
| Cursos | prefijo "curso_" seguido del nombre del curso | Numerica | - | - | No |
| Promedio de notas por defecto | promedio_ucampus | Numerica | - | - | No |
| Promedio de notas calculado | promedio_calculado | Numerica | - | - | Sí |
En Tabla 3.2 se pueden observar todas las variables disponibles del estudio esquemáticamente, presentándose su naturaleza, codificación y categorías de respuesta. Para efectos del análisis, se realizaron procesamientos a algunas variables, como es el caso de nivel socioeconómico (nse). En principio, esta variable poseía 9 categorías, que iban del 0 al 8, pero se recategorizó de tal forma que quedaron tres categorías: 0, 1 y 2 = Bajo; 3, 4, 5 = Medio; 6, 7 y 8 = Alto. Por otro lado, para las bases centradas en estudiantes, se consideraron los años de cohorte desde el 2021 al 2024, pues son los años en común que estaban disponibles para la Base madre, permitiendo observar las notas de cursos junto con caracterización sociodemográfica.
| Variable | % Casos Válidos | % Casos Perdidos | Media | Desviación Estándar | Rango | Histograma |
|---|---|---|---|---|---|---|
| promedio_calculado | 100% | 0% | 5.92 | 0.59 | (1.5-6.84615384615385) | ▁▁▁▂▇ |
| pct_paes_psu | 95.21% | 4.79% | 50.09 | 28.91 | (0.116550116550117-99.8834498834499) | ▇▇▇▇▇ |
| Variable | % Casos válidos | % Perdidos | N Categorías | Categoría Más Frecuente |
|---|---|---|---|---|
| sexo | 100% | 0% | 2 | 1: 1335, 0: 648 |
| nse | 100% | 0% | 3 | Med: 1467, Alt: 399, Baj: 117 |
| colegio | 98.74% | 1.26% | 3 | Par: 778, Mun: 684, Par: 496 |
En los datos se encuentran dos variables para medir el tiempo, a saber, la cohorte y el año, los cuales se distinguen en sus dimensiones conceptual y analítica, por lo que es fundamental comprender su diferencia para la interpretación de los análisis.
Las cohortes apuntan al año de ingreso del estudiante, consecuentemente, los estudiantes de cohortes más antiguas tienen mayor información disponible, debido a que han cursado más semestres y, por tanto, más ramos. En estricto rigor, al analizar las cohortes, se están comparando las diferencias entre los años de ingreso, considerando que las últimas cohortes, como la 2024, no poseen la misma cantidad de notas que la de 2021.
El año es una variable que está asociada a cuándo se realizó el curso, en ese sentido, los cursos cuentan con información que puede someterse a comparación entregando una interpretación más intuitiva que las cohortes. Al comparar las notas promedios de los cursos por año, esto enfoca los cambios que se dan en el tiempo, es decir, entre año y año, pero tomando en cuenta que los cambios están enfocados en los cursos. En este caso, las cohortes tienen un rol secundario, ya que personas de distintas cohortes pueden compartir cursos entre sí, por lo que no afectarían los resultados.
Los análisis centrados en estudiantes se realizaron utilizando la variable cohorte para modelar cambios en el tiempo, mientras que los cambios por año se visualizan con los datos centrados en cursos. Para descomponer el efecto de la cohorte y el tiempo en las notas, en función de robustecer el análisis, se generó una sección de análisis por año, la cual se encuentra en anexos.
En una primera etapa se realizan análisis descriptivos de las calificaciones, considerando medidas de tendencia central y dispersión (promedio, mediana, desviación estándar y rangos). Estos análisis se efectúan, en primer lugar, a nivel de Facultad, con el objetivo de identificar patrones generales. Posteriormente, los datos se desagregan por carrera y cohorte, permitiendo una comparación más detallada entre programas académicos y una mejor comprensión de la variabilidad interna del desempeño estudiantil.
En una segunda etapa se examinan las asociaciones entre las calificaciones y un conjunto de variables sociodemográficas relevantes. Las asociaciones se presentan principalmente a partir de gráficos, siguiendo este orden: nivel facultad (1), nivel carrera (2) y nivel facultad por cohorte (3). Esta fase busca identificar relaciones que diluciden la composición de las calificaciones a partir de distintas variables de interés.
En la tercera etapa se estiman modelos de regresión multivariada con el fin de evaluar el efecto independiente de cada variable explicativa sobre las calificaciones, controlando por el resto de los factores incluidos en el modelo. La especificación de los modelos se ajusta a la naturaleza continua de la variable dependiente y a los supuestos estadísticos correspondientes. Se reportan los coeficientes estimados y niveles de significación, junto con indicadores de ajuste global del modelo. Como aspecto adicional, se incorporan interacciones entre variables con un fin exploratorio, con tal de evidenciar si los efectos de alguna variable por sobre otra son matizados o potenciados.