4  Metodología

4.1 Datos

Para este estudio, se utilizan principalmente dos bases de datos. La base de datos que contiene el promedio de notas por defecto de los estudiantes (1) y la base que tiene las notas de cada ramo que cursó el estudiante (2).

La base que contiene el promedio de notas en bruto lleva por nombre nota_unica.rds (N = 2578) y tiene un total de 17 variables. Esta base contiene información desde el 2020 hasta el 2025. A partir de esta base se genera un subset por carrera, las cuales se llaman nota_unica_nombre carrera.rds.

La base que contiene las notas por curso de estudiantes venía en formato long, por lo que después transformarla a formato wide quedó con un N = 3638 con 1754 variables. Esta base solamente tiene la variable RUT, mientras que todas las demás son los cursos que imparten las cinco carreras.

Considerando esto, se generó una base madre (base_madre.rds), realizando un merge con la base de nota única y la base que contiene las notas por curso. La base madre terminó con un N = 1983 con 1772 variables 1. Esta base contiene información de los cursos impartidos desde 2021 hasta 2024. En esta base se creó la variable “promedio_calculado” que es el promedio de todas las notas de los cursos que registra un caso. A partir de esta base, se generaron dataframes por cada carrera (df_nombre carrera.rds) con tal de disminuir el peso de la información y que fuera más eficiente analizarla.

4.2 Información disponible

La información que se encuentra disponible responde, en primer lugar, a variables de caracterización sociodemográfica. En este marco, hay información sobre el sexo, colegios de precedencia, comuna de residencia, región de origen, nacionalidad, tipo de ingreso, nivel socioeconómico. Además, se encuentra disponible información de caracterización académica, tal como el tipo de ingreso, la cohorte de ingreso, percentil en PSU-PAES, situación académica y, la más importante, el promedio bruto y el promedio calculado. Por último, el gran grueso de variables que contienen las bases son los cursos, tanto obligatorios como electivos, de las cinco carreras que contempla el análisis 2.

4.3 Límites de información

Al momento de procesar las bases de datos, se evidenciaron algunas faltas de información que pueden limitar los análisis. En primer lugar, los años de información que abarcan las dos bases principales no son los mismos, especialmente la base de notas por curso, que contiene sólo información desde 2021 hasta 2024, por lo que restringe el análisis a esos años. En segundo lugar, para la carrera de Antropología, en la base de notas por curso existen 4 variantes de la carrera: ciclo inicial y las 3 especializaciones (Social, Física y Arqueología). Sin embargo, en la base del promedio bruto solamente existe Antropología Arqueología, por lo que no hay registros de los demás casos de esa carrera.

La información respecto a los cursos también sufre de algunas limitancias. Los cursos solamente vienen con el nombre de la cátedra, careciendo del código identificador, el cual permitiría organizar la información por carrera. Tampoco hay información respecto a los créditos que vale cada curso, por lo que no es posible ponderar las notas según los créditos para probar si esto mejora o empeora el match de promedios (entre bruto y calculado). En esta línea, otro vacío es la información de los profesores que imparten los cursos; este recurso podría ayudar enormemente al análisis pues permitiría estudiar patrones en la asignación de notas, como también se podrían emplear modelos longitudinales anidados en los profesores con tal de sofisticar el análisis.