Powered By Blogger

domingo, 24 de abril de 2011

Validación de Diseño de Evaluación de Programas Educativos con TG



Validación de Diseño de Evaluación de Programas Educativos utilizando la Teoría de la Generalizabilidad
Arturo Chow

I.-Introducción: El presente trabajo es un ejercicio teórico-práctico en el que se aplican los conocimientos básicos sobre la Teoría de la Generalizabilidad. Tiene por objetivo demostrar la potencia del modelo TG y su capacidad para comprobar la validez y generalizabilidad de los procedimientos de medida utilizados para evaluar un programa educativo, en este caso he utilizado datos de un estudio sobre la descentralización educativa en Nicaragua, recabados entre 1996 y 1997 por el equipo de evaluación educativa del Ministerio de Educación de Nicaragua.

Los datos provienen de 226 centros de  educación pública, de los cuales 126 son de educación primaria. El proceso evaluativo abarcó la recopilación de datos sobre el entorno de los centros, el nivel de influencia de los diversos miembros de la comunidad educativa, la administración de los recursos, la participación de los padres de familia y el rendimiento académico, el cual se pretendió medir a través de pruebas objetivas referidas a criterios, en las áreas de Español y Matemáticas.

Para realizar el presente ejercicio he escogido los resultados de la prueba de matemáticas que se aplicó a la muestra de estudiantes de primaria, de los que he sacado una sub-muestra de 80 para los análisis de T.G. Seguidamente determino la procedencia y características de los datos utilizados, detallo mi plan de medida, la forma en que han sido procesados y analizados los datos y luego presento las conclusiones.

II.-Características de los datos utilizados: En primer lugar, quiero hacer la salvedad que a pesar de tener información contextual, de familias y de rendimiento académico, solamente he utilizado las pruebas de rendimiento en matemáticas aplicadas a los alumnos de cuarto grado de educación primaria, que constituyeron uno de los componentes, aunque no el más fuerte, de la evaluación de la descentralización.

Las pruebas de matemáticas y español en educación primaria fueron aplicadas a una muestra de aproximadamente 1300 estudiantes en 126 centros ubicados en 16 municipios del país, para la aplicación de las pruebas se hizo una escogencia aleatoria, dentro de una población de aproximadamente 300 centros, que en su momento participaron en el programa de “Autonomía Escolar”.

El instrumento que se aplicó para las pruebas de rendimiento académico en matemáticas estuvo compuesto por 25 ítems, 20 de opción múltiple y 5 de resolución de problemas; según los evaluadores estas pruebas tenían dos objetivos primordiales, primero ofrecer datos sobre el rendimiento general de los estudiantes, en un entorno de descentralización y autonomía, ya que esta prueba constituía el re-test de otra prueba efectuada un año antes (1996) y, segundo, identificar en cuales conocimientos específicos mostraban más dominio o deficiencias los estudiantes de cuarto grado de primaria y tercero de secundaria. El procedimiento para la elaboración de los test fue el siguiente:

1.-Selección y definición de los contenidos básicos a medir.
2.-Definición de las especificaciones de contenido.
3.-Elaboración de ítems.
4.-Análisis de congruencia entre ítems y especificaciones.
5.-Análisis de calidad técnica de ítems.
6.-Elaboración de manuales para administración de pruebas.
7.-Prueba piloto de ítems.
8.-Análisis de resultados de prueba piloto.
9.-Selección de ítems para la construcción de las pruebas.
10.-Aplicación de pruebas.

Como se puede apreciar se siguió un procedimiento más o menos estándar, sin embargo hay que anotar que el test se validó utilizando los preceptos de la Teoría Clásica de los Test, principalmente a través del coeficiente de fiabilidad; también debo señalar que se ubicaron los ítems de resolución de problemas al inicio de la prueba, esto implicó la elaboración de tareas y pequeños cálculos para la escogencia de la respuesta correcta.

En tercer lugar observé un problema importante en la escogencia de la muestra, para lo cual no se tomó en cuenta la mortalidad experimental, resulta que por diversas causas: ausentismo, deserción, cambio de centro, etc., la muestra inicial a la que se había aplicado el primer test se vio reducida, ante lo cual los coordinadores de la evaluación decidieron reponer a los alumnos que ya no se encontraban en el centro, normalmente lo que se debería hacer es escoger una muestra más amplia, cuando los riesgos de mortalidad experimental son grandes, la medida tomada por los evaluadores lógicamente tuvo  consecuencias en los resultados del presente análisis, principalmente en lo que respecta a la magnitud del coeficiente de generalizabilidad absoluto.

III.-El modelo propuesto, procedimiento de procesamiento y  análisis: El plan de medida que escogí contiene tres facetas: alumnos, centros escolares e ítems (Ver figura 1):
Alumnos (A)
Centros Escolares (C)

Ítems (I)
Fig. 1. Diagrama del Modelo de Medida.

Para realizar un primer análisis organicé los datos en un diseño completamente cruzado C x A x I, siendo  los universos a considerar NC, NI  y la población NA. En este primer análisis consideré que los universos y la población estudiada eran infinitos y que las tres facetas del estudio eran completamente aleatorias.

Para efectuar un segundo análisis, mantuve el carácter completamente cruzado del diseño, pero esta vez fijando la faceta centros escolares. La fijación de la faceta “Centros Escolares” parece más adecuada, si se toma en consideración que el universo de centros participantes en el programa de Autonomía Escolar fue pequeño, en comparación con el resto de centros escolares en Nicaragua. Como indiqué anteriormente para el presente análisis con  T.G. utilicé los resultados de una prueba objetiva de matemáticas referida a criterios aplicada a una muestra global de aproximadamente 1300 alumnos. Esta prueba constaba de 25 ítems.

De la muestra global de estudiantes he tomado una sub muestra de 80 Alumnos,  procedentes de 16 Centros. El análisis de varianza lo efectué con el paquete estadístico BMDP (8V), obtuve así las sumas de cuadrados, las medias cuadráticas y los estimadores de los componentes de varianza para cada una de las facetas, luego manualmente he realizado los cálculos de los distintos coeficientes de generalizabilidad que presento y los ajustes necesarios para la toma de decisión, por lo que asumo todas las implicaciones que esto conlleva.

IV.-Resultados del análisis G y D.

Con el plan de medida C x A x I, totalmente aleatorio y luego con centros fijos, realicé una prueba de evaluación de la estructura del diseño de evaluación del programa de Autonomía Escolar, esperando que esto me indicara cuánto puede afectar a los individuos las fuentes de variación, en este caso Centros e Ítems.

Aquí surgió la pregunta de si utilizar un número mayor de individuos en el estudio podía reducir el error de generalización. Para responder a esta pregunta y dado que los individuos constituyen el objeto de estudio podemos fijar el número que será necesario extraer aleatoriamente de la población de origen de donde provienen. En la tabla ANOVA 1.- presento el plan de medida completamente cruzado de Centros x Alumnos x Ítems. Como notarán, el mayor porcentaje de variación lo aportan los “Centros Escolares” y los “Ítems”, así como la interacción “Centros-Ítems”.

1.- TABLA ANOVA DEL PLAN DE MEDIDA C x A x I

Fuente de variación
Suma de
g.l.
Medias
Estimadores
Porcentaje de

cuadrados

Cuadráticas
De varianza
Varianza
Centros Escolares
20,904
16
1,3936
0,00807
4,928846271
Alumnos
1,372
4
0,343
0,0041
2,504122641
Ítems
95,7335
24
3,9889
0,02231
13,62609174
Centros-Alumnos
9,876
60
0,1646
0,00335
2,046051426
Ítems-Alumnos
9,078
96
0,0946
0,00085
0,519147377
Centros-Ítems
108,621
360
0,3017
0,04417
26,97734074
Centros-Alumnos-Ítems
116,474
1440
0,0809
0,08088
49,3983998
TOTAL:
362,0585


0,16373
100













2.- TABLA ANOVA DEL PLAN DE MEDIDA C x A x I
Fijo) 
Fuente de Variación
Suma de
g.l.
Medias
Estimadores
Porcentaje de

cuadrados

Cuadráticas
de varianza
Varianza
Centros Escolares
20,904
15
1,3936
0,00807
4,681517577
Alumnos
1,372
4
0,343
0,0062
3,596704954
Ítems
95,7335
24
3,9889
0,0238
13,80670611
Centros-Alumnos
9,876
60
0,1646
0,00335
1,943380903
Ítems-Alumnos
9,078
96
0,0946
0,00591
3,428471981
Centros-Ítems
108,621
360
0,3017
0,04417
25,62362223
Centros-Alumnos-Ítems
116,474
1440
0,0809
0,08088
46,91959624
TOTAL:
362,0585


0,17238
100


En la tabla ANOVA 2.- Con Centros fijos, se aprecia una leve disminución de la varianza aportada por Centros e Ítems y un aumento de la varianza aportada por los alumnos, es decir la que consideramos como varianza verdadera.

Por otra parte la varianza de la interacción Centros-Ítems sigue siendo muy alta, lo que indica que ha habido significativas diferencias en la forma de aplicar los test en los distintos centros, tema que hubo que analizarse a fondo tanto con los aplicadores de las pruebas, como con los directores de los Centros.

Lo anterior también me hace pensar que hubiera sido muy oportuna la calibración adecuada de los ítems y el análisis contextual de cada una de las escuelas para explicar más concretamente estos resultados.

A continuación presento los coeficientes de generalizabilidad del Plan de Medida Aleatorio y Completamente Cruzado C x A x I:












3.-ANALISIS DE DATOS DEL PLAN DE MEDIDA C x A x I.
(Aleatorio y Completamente Cruzado)

Fuentes de
Estimadores
Dato de
Estimadores
Calculo de error
Calculo de error
Variación
de Varianza
corrección
de error
Absoluto de med.
Relativo de med.
Alumnos
0,0041




Centros Escolares
0,00807
16
0,000504375
0,000504375

Ítems
0,02231
25
0,0008924
0,0008924

Centros-Alumnos
0,00335
16
0,000209375
0,000209375
0,000209375
Centros-Ítems
0,04417
400
0,000110425
0,000110425

Alumnos-Ítems
0,00085
25
0,000034
0,000034
0,000034
Centros-Alumnos-Ítems
0,08088
400
0,0002022
0,0002022
0,0002022
TOTAL:



0,001952775
0,000445575
COEFICIENTES DE GENERALIZABILIDAD



Coeficientes
Formula




Absoluto
E p= s2p /s2p
+  s2D

0,677375253

Relativo
E p= s2p /s2p
+  s2d


0,901976098


Como se puede apreciar, el coeficiente absoluto es relativamente bajo, sin embargo el coeficiente relativo es aceptable. Dado que el coeficiente relativo es más generalizable y por tanto flexible para la toma de decisiones, es el que se asume la mayoría de las veces; sin embargo en este punto consideré hacer ajustes al diseño, para asegurar la decisión con respecto a la factibilidad o no de aumentar el número de niveles o condiciones en el estudio, para ello fijé los centros, dando los resultados que aparecen en la tabla 4.










4.-ANALISIS DE DATOS DEL PLAN DE MEDIDA C x A x I.
(Con Centros fijos)

Fuentes de
Estimadores
Dato
Estimadores
Calculo de error
Calculo de error
Variación
de Varianza
corrección
de error
Absoluto de med.
Relativo de med.
Alumnos
0,0062




Centros Escolares
0,00807
16
0,000504375
0,000504375

Ítems
0,0238
25
0,000952
0,000952

Centros-Alumnos
0,00335
16
0,000209375
0,000209375
0,000209375
Centros-Ítems
0,04417
400
0,000110425
0,000110425

Alumnos-Ítems
0,00591
25
0,0002364
0,0002364
0,0002364
Centros-Alumnos-Ítems
0,08088
400
0,0002022
0,0002022
0,0002022
TOTAL:



0,002214775
0,000647975
COEFICIENTES DE GENERALIZABILIDAD



Coeficientes
Formula




Absoluto
E p= s2p /s2p
+  s2D

0,736799261

Relativo
E p= s2p /s2p
+  s2d


0,905377137


Al fijar la faceta “Centros” el coeficiente absoluto ha aumentado sensiblemente, aunque el relativo no, me parece más indicado este plan de medida ya que el universo de centros descentralizados era en el momento del estudio relativamente reducido, luego procedí al ajuste del modelo, considerando 18 y 20 Centros, en vez de 16 y 30 y 35 ítems, para cada análisis respectivamente.













5.-PLAN DE OPTIMIZACION C x A x I
(Con  Centros Fijos)

Fuentes de variación
Nc (Centros)
16
18
20

Ni (Ítems)
25
30
35
Alumnos

0,0062
0,0062
0,0062
Centros

0,0005043
0,0004483
0,0004035
Ítems

0,000952
0,0007933
0,00068
Centros-Alumnos

0,0002093
0,0001861
0,0001675
Ítem-Alumnos

0,0002364
0,0001973
0,0001691
Ítem-Centros

0,0001104
0,0000817
0,0000631
Centros-Alumnos-Ítems.

0,0002022
0,00014971
0,0001155
Puntuación Universo

0,0062
0,0062
0,0062
Error Absoluto

0,0022146
0,0018564
0,00015987
Error Relativo

0,0006479
0,0005331
0,004521
Coeficiente de Generalizabilidad

0,905
0,9208
0,932


Ahora introduciendo más niveles al Plan de Medida, con Centros fijos, logré aumentar de 0.905 a 0.932 el Coeficiente de Generalizabilidad Relativo. Ahora debo tomar una decisión con respecto a qué diseño debo utilizar para la evaluación del programa educativo.

Tomando en cuenta los resultados y debido a que los incrementos en la fiabilidad, con respecto a los costos de incrementar el número de niveles, son aceptables, considero que el diseño  óptimo es el mixto C x A x I, con Centros fijos, utilizando 20 centros y 35 ítems.












V.-BIBLIOGRAFÍA

AED-PREAL (1997): Evaluación y Reforma Educativa, opciones de política, AED.

Andrés Mateo, Juan (1987):” Planteamiento metodológico en torno a la construcción, desarrollo y optimización de un instrumento de medición en matemáticas”, Barcelona.

Barcinowski, R. S. (1981). Statistical Power With Group Mean as the Unit of Analysis. Journal of Educational Statistics, 6, 267-285

Blanco Villaseñor, Angel: “Fiabilidad, precisión, validez y generalización de los diseños observacionales.

Cronbach, Lee Joseph (1998):  Fundamentos de los Tests Psicológicos .

Cerdán Victoria, Jesús (1998): La investigación sobre el profesorado (II) 1993-1997, Madrid, MEC-CIDE.

Daniel, Wayne (1995) Estadística con aplicación a las ciencias sociales y a la educación. México, McGraw Hill.

De la Orden, A. (1992) Calidad y evaluación de la enseñanza universitaria. Ponencia presentada al Congreso Internacional de Universidades, Madrid, Julio.

G. G. Kreft, Ita; de Leeuw, Jan (1998): Introducing Multilevel Modeling, Sage Publications Ltd; 1 edition

Page, Mariano Alvaro et al (1990): Hacia un modelo causal del rendimiento académico, CIDE-MEC.

Kerlinger N., Fred (1975): Investigación del comportamiento, Segunda Ed. México, Ed. Interamericana.

Martínez, Arias, R (1995): Psicometría. Teoría de los test psicológicos y educativos. Síntesis, Madrid, cap 16-17.

Mortimore, Peter; Sammons, Pam y Hillman, Josh (1998) Características clave de las escuelas efectivas, Argentina, Secretaría de Educación Pública.

Muñiz Fernández, José (1990): Teoría de Respuesta al Ítem, Madrid, Pirámide.

Muñiz Fernández, José (1998): Teoría Clásica de los Test, Madrid, Piramide.

Toledo Celi, Estela (1988): Aportaciones del análisis de la investigación del comportamiento docente en la formación de profesores, Tesis Doctoral, Madrid, Biblioteca de la Fac. de Psicología, Univ. Complutense de Madrid, TOL 37.

USAID, (1994), Manual de metodología de la investigación educativa, Guatemala, Juarez y Asoc.


Shiefelbein, E.; Vélez, Eduardo; Valenzuela, Jorge (1995): Factores que afectan el rendimiento académico en la educación primaria, México, Cuadernos de lecturas, SEP.

Bisquerra Alzina, R (1989): Introducción conceptual al análisis multivariable, PPU, Barcelona, 2 Tomo,  Cap 1-3.

Birnbaum, A (1968): Some latent trait models and their use in ifenrring and examinee´s ability. En E.M. Lord & M.R. Novick. Statical theories of mental test scores. Ney York, Mcgraw Hill.

Hambleton R.K. &  Swaminathan (1985): Item Response theory: principles and applications, Boston, Kluwer.

Varios (1997) Evaluación de centros. Revista electrónica de Investigación y Evaluación, vol 3. (No. Monográfico).

No hay comentarios:

Publicar un comentario