La Teoría de la Generalizabilidad
Arturo Chow
I.-Introducción.
Mientras la Teoría Clásica de los Test (TCT), desde una visión “unitaria” (Martínez Arias, Teoría de los Test Psicológicos y Educativos, 1995, pp.169.) toma en cuenta tan solo la existencia del error aleatorio de las mediciones, definiéndolo como la diferencia entre la puntuación observada de los sujetos y su puntuación verdadera (e= X – V), la Teoría de la Generalizabilidad (TG) pretende analizar todo el universo posible de fuentes de variación y determinar la cuantía de esta variación por cada una de estas fuentes, apoyándose en el análisis de varianza “ANOVA”, para la estimación de los parámetros de varianza.
En general, como afirma Cronbach (ídem, pp.226), los estudios de generalizabilidad son útiles para diseñar procedimientos de medida y no tan solo para validarlos, como en la TCT. En la literatura psicométrica actual existen muchas referencias a los conceptos más importantes de la TG los que reproduzco a continuación:
II.-Los Conceptos de la Teoría de la Generalizabilidad.
En primer lugar está el concepto del “objeto de medición”, que en ciencias sociales comúnmente son los individuos, es definido por Muñiz (Teoría Clásica de los Test, 1998, pp. 85) como las “unidades medidas”, mientras Martínez Arias (1995, pp.171) indica que también pueden ser objeto de medición los evaluadores, resultados de algún programa, etc. El estimador de varianza del objeto de medición es considerado en la TG. la “varianza verdadera”, mientras que la variación de los otros aspectos incluidos en el diseño es considerada varianza error.
El término “faceta”, fue acuñado por Cronbach et al, para designar a cada una de las características de la situación de medida. Este término es equivalente al de factor, en el análisis de varianza. Comúnmente en el análisis de generalizabilidad se consideran facetas a todos los factores o variables presentes en el diseño de medida, menos al “objeto de medición”. El efecto de cada faceta, reflejado en su estimador de varianza es considerado “efecto principal, mientras que las distintas combinaciones de varianzas entre facetas son consideradas “interacciones”.
Puntuación observada (xPI) y puntuación universo (mp), la puntuación observada es la puntuación empírica que obtiene un individuo al aplicársele un test, en el caso que se pudiera aplicar múltiples veces al individuo con todos los instrumentos que miden el mismo rasgo o conducta, entonces obtendríamos la puntuación universo de este individuo. En TG se suele utilizar el término “universo” para contener todas las condiciones de evaluación (evaluadores, ítems, situaciones, momentos, etc.), en cambio, cuando se habla de grupos de individuos u objetos de medida, en TG nos referimos a “poblaciones”.
“Universo de observaciones admisibles”, de forma amplia este concepto se refiere a la población escogida por el investigador y todos los posibles resultados que esta población pueda obtener, dadas las condiciones impuestas por el diseño de investigación.
Dado que es muy común trabajar con muestras de una población, cuando hablamos del “universo de generalización” nos referimos a la faceta o facetas en las que el investigador tiene interés de generalizar resultados a un universo más amplio que la propia muestra.
El “coeficiente de generalizabilidad” es el equivalente del coeficiente de fiabilidad de la TCT; toma valores entre 0 y 1, expresando el grado en que una medición dada puede generalizarse a toda la población de mediciones posibles, contempladas en el diseño de investigación.
Para estimar el coeficiente de generalizabilidad en la T.G. es fundamental manejar los conceptos de “error absoluto” y “error relativo”. Cronbach describe que el “error sobre la medida absoluta” (sD) es la desviación del valor observado con respecto a la puntuación universo, es decir, al universo de puntuaciones posibles de un individuo, mientras que “error sobre la medida relativa” (sd) es el que se comete al estimar la desviación entre la puntuación observada y la media de la puntuación, en la población correspondiente de objetos de estudio.
El coeficiente de error absoluto está formado por la sumatoria de todos los estimadores de varianza resultantes del ANOVA, menos el referido al objeto de medida, en el caso del coeficiente de error relativo este se encuentra formado por la sumatoria de todos los estimadores de varianza (menos el del objeto de medida) y las interacciones que tengan entre sus subíndices.
En T.G. Se puede hablar de múltiples coeficientes de generalizabilidad, los cuales van a estar determinados por el universo de generalización escogido por el investigador, aunque Muñiz (1998, pp.86) indica que el coeficiente de generalizabilidad no es el único indicador de la magnitud de los errores de medida, puesto que también se pueden utilizar los estimadores de los componentes de varianza resultantes del ANOVA.
Análogamente al concepto del coeficiente de fiabilidad de la TCT , el coeficiente de generalizabilidad se expresa como el cociente entre la puntuación universo y la puntuación observada. En la medida que el investigador quiera generalizar los resultados obtenidos, utilizará el coeficiente de error relativo o absoluto para calcular el coeficiente de generalizabilidad, entendidos en la fórmula siguiente como la varianza de error, ubicada como denominador:
rg = s2p / s2p + s2e
III.- La Correlación Intra-Clase.
En el análisis de varianza se descompone la variabilidad total en dos componentes aditivos: la correlación intra-clase y la correlación entre-clases. La correlación intra-clase aparece en estudios longitudinales, es decir cuando se trata de estudiar cambios a lo largo del tiempo y cuando los sujetos están agrupados en conglomerados. Esto se da cuando se toman varios datos de un mismo sujeto (medidas repetidas) y en casos en que los sujetos de un mismo conglomerado se parecen entre sí.
Las consecuencias de no tomar en cuenta la correlación intra clase son varias y muy importantes; en primer lugar, cuando no la tomamos en cuenta nos parece que tenemos más información de la que en realidad se tiene, esto nos obliga a construir modelos innecesariamente complejos, siendo los errores típicos demasiado pequeños, puesto que modifica el alfa nominal, se recomienda por ello, como un paso inicial determinar la diferencia entre el alfa nominal y el alfa real.
Para evitar el efecto de la correlación intra-clase hay que tomar en cuenta que, siendo una medida de homogeneidad interna entre grupos, cuando los datos están naturalmente agrupados, las unidades de análisis tienden a parecerse (alumnos en clases, clases en escuelas) y que la información proporcionada por los alumnos procedentes de la misma clase es menor que la proporcionada por alumnos de clases distintas. Lo anterior es muy importante para la determinación del tamaño de la muestra por conglomerados.
En Kreft y Leewn (1998) la correlación intra- clase se ilustra con un ejemplo extraído de la investigación sobre escuelas efectivas. Los estudiantes están anidados dentro de escuelas y ambos, estudiantes y escuelas, son objeto de interés y de observación, puesto que las observaciones que están cercanas en tiempo y espacio, son probablemente más similares que observaciones aisladas en el tiempo y el espacio.
Por lo tanto, estudiantes en la misma escuela son más semejantes que estudiantes en diferentes escuelas, debido a que comparten experiencias, el medio ambiente, etc. La vivencia del mismo contexto es una causa probable de la dependencia entre las observaciones.
La correlación intra-clase es una medida del grado de dependencia entre individuos. La mayoría de los individuos que comparten experiencias, debido a su cercanía en espacio y tiempo, son similares o hasta cierto punto son una reproducción de cada uno de ellos. El más alto grado de dependencia puede ser encontrado entre observaciones de dos gemelos monocigóticos o niños nacidos de un mismo cigoto y criados en la misma familia. Otro ejemplo de observaciones dependientes se refiere a las medidas repetidas sobre la misma persona.
Kreft y Leewn (ídem) exponen que reconocer la existencia de la correlación intra-clase es importante porque ésta cambia la varianza del error en los modelos tradicionales de regresión lineal. Dicha varianza del error representa el efecto de todas las variables omitidas y los errores de medida, bajo el supuesto que estos errores no están relacionados.
En los modelos tradicionales de regresión lineal se asume que las variables omitidas tienen efectos aleatorios y no estructurales, un supuesto debatible en datos que contienen observaciones agrupadas. Por ejemplo, en estudios de eficacia escolar, la influencia estructural de variables no medidas puede ser el clima de la escuela o la presión de los compañeros. De la misma forma, el grado de covarianza en los términos de error de individuos agrupados en la misma escuela o clase se expresa en los coeficientes de correlación intra-clase.
Resumiendo, la correlación intra-clase generalmente está indicada por el símbolo r y describe en qué grado los individuos que comparten experiencias comunes se encuentran muy cercanos en espacio y/o tiempo, esto puede ser llamado grupo de homogeneidad. Más formalmente, teniendo datos de una estructura jerárquica de dos niveles, se puede definir como la proporción de varianza en el resultado que se encuentra entre las unidades del segundo nivel.
De una forma u otra, la descripción y definición de correlación intraclase se refiere a la existencia de una dependencia intra-contexto, es decir, que si la correlación intraclase está presente, como puede pasar cuando tratamos con datos agrupados, se viola el supuesto de observaciones independientes del modelo tradicional lineal. Una sorprendente ejemplificación del efecto de la violación al supuesto de las observaciones independientes, es el incremento de la probabilidad del error del tipo I (el nivel de alpha). La fuerza de la correlación intraclase determina en que medida son independientes en realidad las observaciones.
Desde que los test de significancia se apoyan fuertemente sobre el número de observaciones independientes, la existencia de la correlación intra-clase hace que dichos test, en los modelos lineales tradicionales, sean demasiado liberales (Barcinowski, 1981). Barcinowski muestra que en la mayoría de las aplicaciones del análisis de varianza, el error estándar de los parámetros estaría subestimado. Una pequeña correlación intraclase (digamos r= 0.01) puede inflar el nivel de alpha sustancialmente, como é presenta en la tabla siguiente, que surge de un ANOVA:
Inflación del nivel | alpha de 0.05 con | Presencia de | Intraclase correlación |
r | |||
![]() | 0.01 | 0.05 | 0.20 |
10 | 0.06 | 0.11 | 0.28 |
25 | 0.08 | 0.19 | 0.46 |
50 | 0.11 | 0.30 | 0.59 |
100 | 0.17 | 0.43 | 0.70 |
(Barcinowski, 1981, p 270)
Con apoyo de los datos anteriores Barcinowski (1981, p 270) indica que para grandes grupos (Nj=100) una pequeña correlación intraclase de r=0.01 infla la tasa del error de tipo I, de un nivel asumido de 0.05, a uno observado de 0.17. Para pequeños grupos (Nj=10) una gran correlación intraclase de 0.20 incrementa el nivel del alpha observado a 0.28 en lugar del asumido de 0.05.
En general la regla de aplicación es que una pequeña correlación intraclase en grandes grupos tiene un efecto similar en la inflación del nivel alpha de una gran correlación intraclase en grupos pequeños. De la misma manera una pequeña correlación intraclase puede afectar fuertemente el nivel alpha en pequeños grupos, mientras que la misma incrementa el nivel de alpha de una forma significativa en grupos grandes. Los efectos diferenciales de la correlación intraclase siguen el mismo patrón de los coeficientes de correlación tradicionales: pequeñas correlaciones no son significativas en muestras pequeñas, son significativas en grandes muestras.
IV.-BIBLIOGRAFÍA
Barcinowski, R. S. (1981). Statistical Power With Group Mean as the Unit of Analysis. Journal of Educational Statistics, 6, 267-285
Cronbach, Lee Joseph (1998): Fundamentos de los Tests Psicológicos .
G. G. Kreft, Ita; de Leewn, Jan (1998): Introducing Multilevel Modeling, Sage Publications Ltd; 1 edition
Martínez, Arias, R (1995): Psicometría. Teoría de los test psicológicos y educativos. Síntesis, Madrid, cap. 16-17.
Muñiz Fernández, José (1990): Teoría de Respuesta al Ítem, Madrid, Pirámide.
Muñiz Fernández, José (1998): Teoría Clásica de los Test, Madrid, Pirámide.
Soy el profesor Harvin Martinez de la UTC puede revisar
ResponderEliminarmi blog.
para algun comentario
www.proyectoutc.blogspot.com