Tesis Doctorado
Neo-Classical Test Theory: On the modelling of individual learning. Theory , Statistical Estimation and Educational Applications
Neo-Teoría Clásica de Test: Modelando el aprendizaje de las personas. Teoría, estimación estadística y aplicaciones en educación
Fecha
2019Autor
San Martín Gutiérrez, Ernesto
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
Institución
Resumen
Latent variables used in Item Response Theory (IRT) models are specified by the axiom of local independence (ALI). By doing this, latent variables explain the non random variations in the observed scores, thus, latent variable represent what is meaningful to the researcher. High impact decisions are made based on the estimates of them. Selection in some universities and grants are just some examples. However, the marginal distribution of latent variables is not identified in IRT models, hence, it is not possible to infer from the observed information an interpretation of a latent variable in this context. Usually their distributions are assumed as normal, even if they are meant to represent the substantive behind the data. Our main goal was to identify the marginal distribution of latent variables in a set of IRT models, and estimate this distribution.
We frame all IRT models that can be formulated as generalized linear mixed models in a Hilbert space. In this framework the ALI is replaced by conditional orthogonality, a weak version of ALI (WALI). We found that under WALI the only element for which the Empirical Bayes estimator is zero, it is the zero element. Hence the WALI resolve an indeterminacy problem, because if there was more information in there, it would be impossible to recover it using the Empirical Bayes estimator. We found that it is possible to have latent variables “living” among all the possibles observed scores, thus they are unobserved and not unobservable. Also, using the identification result of Székely and Rao (2000), we identify the marginal distribu- tions of latent variables underlying the observed scores, including the error terms. By expanding our Hilbert space to vectorial random variables, we generalized all these results to multidimensional latent variables too. Then we implement the non- parametric estimator proposed by Bonhomme and Robin (2010). In order to evaluate under which conditions the estimator was able to recover the marginal distribution of the latent variables, we perform a simulation study. Finally, we used real data and found that there are marginal distributions different from the standard normal distribution (Normal (0, 1)). En los modelos de Teoría de Respuesta al Ítem (TRI) las variables latentes son especificadas por el Axioma de Independencia Local (ALI). De este modo las variables latentes explican las variaciones no aleatorias de los puntajes observados en una prueba. Ellas se utilizan para representar elementos más substantivos de alguna teoría. Por ejemplo, en modelos TRI son interpretadas como habilidades cognitivas de las personas en algunas ocasiones. Decisiones de alto impacto son tomadas a partir de las estimaciones de estos modelos, tanto en Chile como en el extranjero. Sin embargo, a pesar de su importancia, en el proceso de estimación de puntajes la distribución marginal de ellas es asumida, no es deducida desde los puntajes observados. Más aún, se ha demostrado que en los modelos TRI la distribución de las variables latentes no es identificada. El principal objetivo de esta tesis fue identificar la distribución de las variables latentes utilizadas en un conjunto de modelos TRI, y estimar esta distribución.
Nosotros enmarcamos todos los modelos de TRI que pueden ser formulados como modelos generalizados lineales mixtos en un espacio de Hilbert. En este enfoque, el ALI es reemplazado por el Axioma de Ortogonalidad Condicional (WALI), una versión débil de ALI. Encontramos que pueden haber variables latentes tomando valores de entre los puntajes observados para las cuales WALI es cierto. Es decir pueden haber variables latentes no-observadas y no no-observables. Además, utilizando el resultado de identificación de Székely and Rao (2000), identificamos la distribución de todas las variables latentes involucradas en los modelos TRI, incluidos los errores y variables latentes multidimensionales. Expandiendo nuestro espacio de Hilbert a variables aleatorias vectoriales, generalizamos todos nuestros resultados a variables latentes multidimensionales. Luego implementamos el estimador no paramétrico propuesto por Bonhomme and Robin (2010). Para conocer bajo qué condiciones el estimador es capaz de recuperar las distribuciones marginales de las variables latentes realizamos un estudio de simulación. Finalmente aplicamos este procedimiento de estimación con datos reales, y encontramos que la distribución marginal de la variable latente que representa el constructo de interés sicológico-educacional no es una distribución normal estándar (Normal (0, 1)).