La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tema 5.2 Evaluación del instrumento de medida:

Presentaciones similares


Presentación del tema: "Tema 5.2 Evaluación del instrumento de medida:"— Transcripción de la presentación:

1 Tema 5.2 Evaluación del instrumento de medida:
PSICOMETRÍA Tema 5.2 Evaluación del instrumento de medida: FIABILIDAD ii Salvador Chacón Moscoso Susana Sanduvete Chaves Agradecemos a Francisco Pablo Holgado Tello su inestimable colaboración en la elaboración de este material

2 INDICE 1. La fiabilidad como consistencia interna
1.1. Métodos basados en la división del test en dos mitades La ecuación de Spearman-Brown La fórmula de Rulon La fórmula de Guttman-Flanagan 1.2. Métodos basados en la covariación entre los ítems Coeficiente alfa de Cronbach Estimador insesgado de alfa Inferencias sobre alfa Casos particulares del coeficiente alfa 1.3. Coeficientes basados en el análisis factorial de los ítems: Theta () y Omega () 1.4. El coeficiente beta () de Raju 2. Estimación de la puntuación verdadera de los participantes en el atributo de interés 2.1. Estimación basada en la desigualdad de Chebychev 2.2. Estimación basada en la distribución normal de los errores 2.3. Estimación basada en el modelo de regresión lineal 3. Valoración de la Teoría Clásica de los Tests 4. Introducción a la fiabilidad en los tests referidos al criterio. 5. Otras aproximaciones al estudio de la fiabilidad. La fiabilidad en la metodología observacional 6. A modo de síntesis 7. Bibliografía básica El tema 5, es segundo del bloque de TCT, aborda cómo estimar el coeficiente de fiabilidad, y estimar la puntuación verdadera de los participantes. La organización del tema es la recomendada por el Instituto Universitario de Educación a Distancia para la organización de los contenidos en un proceso de enseñanza-aprendizaje a distancia. Concretamente, en primer lugar aparecen las orientaciones didácticas donde se marcarán los objetivos, y se resalta la importancia del tema en el conjunto de la asignatura. A continuación aparece, un bloque central con los contenidos específicos del tema, y para finalizar veremos algunos ejercicios de autocomprobación y se mostrará bibliografía relevante comentada. .

3 1. LA FIABILIDAD COMO CONSISTENCIA INTERNA
En el tema 5.1, vimos que el coeficiente de fiabilidad (como estabilidad de las medidas) se obtenía a partir de la correlación entre formas paralelas de un test, o mediante la correlación entre dos aplicaciones del mismo test (test-retest). En la mayoría de las ocasiones, sólo es posible llevar a cabo una única aplicación del test (evita problemas asociados con la repetición del test y con la dificultad de construir formas paralelas). Métodos que requieren una sola aplicación del test: División del test en dos mitades. Covariación entre todos los ítems del test. En el tema anterior, vimos que el coeficiente de fiabilidad se obtenía a partir de la correlación entre formas paralelas de un test, o mediante la correlación entre dos aplicaciones de un mismo test (test-retest). En la mayoría de las ocasiones sólo es posible llevar a cabo una sola aplicación del test. Con estos procedimientos se evitan los problemas asociados con la repetición del test y con la dificultad de construir formas paralelas. Por ello, existen una serie de métodos hacen referencia a la división del test en dos mitades; mientras que otros se refieren al análisis de la covariación entre todos los elementos del test.

4 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades División del test en dos mitades: no siempre es fácil, ya que se requiere que las mitades sean iguales en cuanto a dificultad y contenido. Distintos procedimientos: Dividir el test por la mitad. Sin embargo, en muchos test los ítems fáciles suelen aparecer al principio. Ordenar los ítems por su dificultad: a continuación asignar los pares a la forma 1 y los impares a la forma 2. Asignación aleatoria a cada una de las mitades. Asignar ítems a las mitades de forma que estén emparejadas en contenido. Dividir el test en dos mitades no es siempre una labor tan sencilla, ya que las mitades deberían ser similares en dificultad y contenido para que la correlación entre las puntuaciones se aproxime al valor máximo. Para dividir el test en dos mitades se suele utilizar uno de los siguientes procedimientos: 1. Se puede optar por asignar todos los elementos pares a la forma 1 y los impares a la forma 2. Sin embargo, muchos test están construidos de tal forma que los ítems más fáciles aparecen al principio, por ello, también: 2. Se pueden ordenar los ítems por su dificultad: y a continuación asignar los pares a la forma 1 y los impares a la forma 2. 3. Una tercera posibilidad es asignar aleatoriamente ítems a cada una de las mitades. 4. También cabe la posibilidad de asignar los ítems de forma que estén emparejados en contenido. 5. Y finalmente, habría que aplicar la fórmula de Spearman-Brown; Rulon; o Guttman-Flanagan. Tantos coeficientes de fiabilidad como divisiones del test en dos mitades se puedan hacer

5 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La ecuación de Spearman-Brown Ecuación de Spearman-Brown para elementos paralelos: es el método más antiguo y fue propuesto casi al mismo tiempo por Spearman y Brown. Se aplica el test a una muestra de participantes. Se divide el test en dos mitades (paralelas). Se calcula la correlación. Dicho valor equivale al rxx’ para cada una de las mitades  habría que aplicar la fórmula de corrección para el caso de un test con longitud doble. Es el método más antiguo y probablemente más utilizadas para calcular el coeficiente de fiabilidad cuando se divide el test en dos mitades. Fue propuesto de manera separada y al mismo tiempo por Spearman y Brown. 1. En primer lugar se aplica el test a una muestra de participantes. 2. Se divide el test en dos mitades, supuestamente paralelas. Se calcula la correlación entre ambas. El valor obtenido correspondería al coeficiente de fiabilidad para cada una de las mitades, por lo que tendríamos que aplicar la fórmula de corrección para el caso de un test con el doble de longitud. Donde Rxx es el coeficiente de fiabilidad cuando se ha duplicado su longitud. Rxx; es el coeficiente de fiabilidad obtenido al correlacionar ambas mitades.

6 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La ecuación de Spearman-Brown En la siguiente tabla, se muestran las puntuaciones de una muestra de participantes en los ítems pares e impares de un test. Participantes par impar 1 8 4 2 7 3 6 5 Total 42 34 En la siguiente tabla se muestran las puntuaciones de una muestra de sujetos en los ítems pares e impares de un test. Para calcular el coeficiente de fiabilidad del test completo: 1. En primer lugar habría que calcular el coeficiente de correlación para la muestra total, y obtenemos que su valor es de .34. 2. En segundo lugar, habría que aplicar la fórmula de corrección de Spearman-Brown. Y en este caso encontramos que vale 0.51 En este caso, el coeficiente de fiabilidad para cada una de las mitades es 0.34, pero del test total es Hemos asumido que las dos mitades son paralelas, no obstante al aplicar este procedimiento de forma estricta habría que haber comprobado que las medias y el error típico de medida de ambos partes son iguales. Calcular la fiabilidad utilizando la fórmula de Spearman-Brown.

7 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La ecuación de Spearman-Brown Participantes par impar 1 8 4 64 16 32 2 7 49 3 6 36 48 5 25 20 56 Total 42 34 302 202 241 En la siguiente tabla se muestran las puntuaciones de una muestra de sujetos en los ítems pares e impares de un test. Para calcular el coeficiente de fiabilidad del test completo: 1. En primer lugar habría que calcular el coeficiente de correlación para la muestra total, y obtenemos que su valor es de .34. 2. En segundo lugar, habría que aplicar la fórmula de corrección de Spearman-Brown. Y en este caso encontramos que vale 0.51 En este caso, el coeficiente de fiabilidad para cada una de las mitades es 0.34, pero del test total es Hemos asumido que las dos mitades son paralelas, no obstante al aplicar este procedimiento de forma estricta habría que haber comprobado que las medias y el error típico de medida de ambos partes son iguales.

8 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La ecuación de Spearman-Brown 1. Calcular el coeficiente de correlación entre ambas mitades. Obtenemos que vale 0,35 2. Aplicamos la fórmula de corrección de Spearman-Brown. Obtenemos un valor de 0,52

9 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Rulon Ecuación de Rulon (1939): se utiliza cuando las dos mitades no son estrictamente paralelas, pero se entiende que son tau-equivalentes (igualdad de varianzas verdaderas aunque las varianzas del error no tienen por qué ser iguales); o congenéricas (la V de cada persona en un test es igual a la V en el otro test mas una constante). A veces los componentes de los tests no son paralelos, pero puede mantenerse el supuesto de que son tau-equivalentes, es decir, se sigue asumiendo que la varianza de las puntuaciones verdaderas son iguales; aunque no lo sean las varianzas de los errores La equivalencia entre los procedimientos de Spearman-Brown y de Rulon depende del grado de paralelismo de las formas, de tal manera que cuanto más parecidas son más se aproximan los valores obtenidos mediante ambas fórmulas. La equivalencia entre Spearman-Brown y Rulon depende del grado de paralelismo de las formas, de forma que cuanto más parecidas sean, más se aproximan los valores.

10 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Rulon En la siguiente tabla, se muestra las puntuaciones de una muestra de participantes en los ítems pares e impares de un test Participantes X Par Impar A 4 3 1 B C 6 D 2 E F 5 Imaginemos un test que se le ha aplicado a 6 sujetos. En la tabla se presentan las puntuaciones obtenidas por los sujetos en el test total (X), así como las obtenidas en los elementos pares e impares. En este caso, habría que calcular el coeficiente de fiabilidad del test. 1. En primer lugar tendríamos que calcular la varianza de las diferencias, que encontramos que vale 1.14. 2. Y en segundo lugar, ya podríamos aplicar directamente la fórmula de Rulon. De esta forma, encontramos que su valor es 0.61. Calcular la fiabilidad utilizando la fórmula de Rulon.

11 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Rulon Participantes X Par Impar (P-I)=d d2 X2 A 4 3 1 2 16 B C 6 36 D E -1 9 F 5 25 21 11 10 7 91 Imaginemos un test que se le ha aplicado a 6 sujetos. En la tabla se presentan las puntuaciones obtenidas por los sujetos en el test total (X), así como las obtenidas en los elementos pares e impares. En este caso, habría que calcular el coeficiente de fiabilidad del test. 1. En primer lugar tendríamos que calcular la varianza de las diferencias, que encontramos que vale 1.14. 2. Y en segundo lugar, ya podríamos aplicar directamente la fórmula de Rulon. De esta forma, encontramos que su valor es 0.61.

12 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Rulon 1. Calcularíamos la varianza de las diferencias. En este caso es 1,14. 2. Aplicando la fórmula de Rulon obtenemos que el coeficiente de fiabilidad vale 0,61 Imaginemos un test que se le ha aplicado a 6 sujetos. En la tabla se presentan las puntuaciones obtenidas por los sujetos en el test total (X), así como las obtenidas en los elementos pares e impares. En este caso, habría que calcular el coeficiente de fiabilidad del test. 1. En primer lugar tendríamos que calcular la varianza de las diferencias, que encontramos que vale 1.14. 2. Y en segundo lugar, ya podríamos aplicar directamente la fórmula de Rulon. De esta forma, encontramos que su valor es 0.61.

13 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Guttman-Flanagan Guttman (1937) y Flanagan (1945): Llegaron de manera independiente a una fórmula equivalente a la de Rulon, pero de más fácil aplicación. Por su parte, Guttman y Flanagan, llegaron de manera independiente a una fórmula equivalente a la de Rulon, pero que presenta una mayor sencillez de aplicación Donde Sp^2 y Si, representan respectivamente las varianzas de las puntuaciones de los ítems pares e impares respectivamente. Y Sx representa la varianza de las puntuaciones empíricas de los sujetos. Con los datos del ejercicio anterior, calcular el coeficiente de fiabilidad utilizando Guttman-Flanagan.

14 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Guttman-Flanagan Participantes X Par Impar Par2 Impar2 A 4 3 1 9 B C 6 D 2 E F 5 21 11 10 25 24 S2 = 2,92 – Calculado en el ejercicio anterior

15 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.1. Métodos basados en la división del test en dos mitades La fórmula de Guttman-Flanagan Observamos que llegamos al mismo resultado, sin necesidad de calcular las puntuaciones referidas a las diferencias. Si utilizamos los datos del ejemplo anterior, y calculamos el coeficiente de fiabilidad utilizando Guttman-Flanagan, observamos que llegamos al mismo resultado, sin necesidad de calcular las puntuaciones referidas a las diferencias.

16 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Uno de los principales problemas con la división del test en dos mitades, es que existen numerosas formas de obtener dos mitades, obteniendo tantas estimaciones del coeficiente de fiabilidad como diferentes dos mitades puedan hacerse. Una forma de resolver este problema es estudiar la covariación de los ítems. Métodos: Coeficiente alfa de Cronbach, y sus casos particulares: KR20 y KR21 de Kuder-Richardson (1937). Uno de los principales problemas con la división del test en dos mitades, es que existen numerosas formas de obtener las dos mitades. Por ello, una forma de solventar este problema es considerar a cada ítem como si fuese un test de longitud unidad. Entre los coeficientes que se basan en este procedimiento nos centraremos principalmente en el coeficiente alfa de Cronbach y en dos de sus casos particulares como son en los coeficientes KR20 y KR21 de Kuder-Richardson.

17 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach - Coeficiente alfa de Cronbach: expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza total del test debida a la covariación de los ítems  cuanto más covaríen los ítems, mayor será la fiabilidad del test. El coeficiente alfa de Cronbach, expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza total del test debida a la covariación de los ítems. Cuanto más covaríen los items entre sí, mayor será la fiabilidad del test. Donde n es el número de elementos del test. Sj, es el sumatorio de la varianza de los elementos del test. Y Sx es la varianza de las puntuaciones del test.

18 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Se ha aplicado un test de percepción visual a 6 participantes. Calcular el valor del coeficiente de fiabilidad del test. participantes X1 X2 X3 X4 X5 A 3 4 B 2 C D 1 E F Imaginemos que se aplica un test de percepción visual a 6 participantes. Y con los datos que aparecen en la tabla nos piden calcular el coeficiente de fiabilidad mediante el alfa de Cronbach. En primer lugar tendríamos que calcular la varianza de cada uno de los ítems. Lo que se llevará a cabo con las puntuaciones de cada columna. También habrá que calcular la varianza de las puntuaciones obtenidas por los participantes en el test total, lo que se realizará con los valores de la última columna. Y por último habrá que aplicar la fórmula propuesta por Cronbach. Que en este caso, encontramos que vale .94.

19 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach participante X1 X2 X3 X4 X5 X A 3 4 17 9 16 289 B 2 15 225 C 14 196 D 1 7 49 E 6 36 F Σ 12 11 10 62 34 31 20 43 44 804 Imaginemos que se aplica un test de percepción visual a 6 participantes. Y con los datos que aparecen en la tabla nos piden calcular el coeficiente de fiabilidad mediante el alfa de Cronbach. En primer lugar tendríamos que calcular la varianza de cada uno de los ítems. Lo que se llevará a cabo con las puntuaciones de cada columna. También habrá que calcular la varianza de las puntuaciones obtenidas por los participantes en el test total, lo que se realizará con los valores de la última columna. Y por último habrá que aplicar la fórmula propuesta por Cronbach. Que en este caso, encontramos que vale .94.

20 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach 1. Calcular la varianza de cada ítem 2. Calcular la varianza de las puntuaciones en el test total 3. Calcular el alfa de Cronbach Imaginemos que se aplica un test de percepción visual a 6 participantes. Y con los datos que aparecen en la tabla nos piden calcular el coeficiente de fiabilidad mediante el alfa de Cronbach. En primer lugar tendríamos que calcular la varianza de cada uno de los ítems. Lo que se llevará a cabo con las puntuaciones de cada columna. También habrá que calcular la varianza de las puntuaciones obtenidas por los participantes en el test total, lo que se realizará con los valores de la última columna. Y por último habrá que aplicar la fórmula propuesta por Cronbach. Que en este caso, encontramos que vale .94.

21 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Estimador insesgado de alfa El estimador insesgado: alfa no es más que un estimador o aproximación al valor real del coeficiente de fiabilidad. Sin embargo, existe una aproximación más exacta de dicho valor que se expresa mediante la siguiente fórmula: Encontramos que alfa, es simplemente un estimador o aproximación al valor real del coeficiente de fiabilidad. Sin embargo, existe una aproximación más exacta de dicho valor que se expresa mediante la siguiente formulación. Donde; alfa con guión es el valor del estimador insesgado: alfa con sombrerito, hace referencia al alfa de Cronbach Y N es el número de participantes de la muestra. Sin embargo, encontramos que es valor obtenido en la muestra se aproxima al del estimador insesgado cuando el número de participantes tiende a infinito. El estimador insesgado de alfa se expresa mediante la siguiente formulación, donde ….es el estimador insesgado, y ….es el valor obtenido del coeficiente de Cronbach en una determinada muestra. A medida que el tamaño muestral aumenta el estimador insesgado se aproxima al valor alfa encontrado en la muestra. En la práctica, a partir de 100 participantes las diferencias son insignificantes.

22 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Estimador insesgado de alfa Ejemplo 1: en una muestra de 150 participantes un test obtiene un valor de α = 0,75. ¿Cuál es el valor del estimador insesgado de alfa? Ejemplo 2: en una muestra de 20 participantes un test obtiene un valor de α = 0,75. ¿Cuál es el valor del estimador insesgado de alfa? ¿En qué ejemplo difieren más alfa y su estimador insesgado? ¿Por qué? Encontramos que alfa, es simplemente un estimador o aproximación al valor real del coeficiente de fiabilidad. Sin embargo, existe una aproximación más exacta de dicho valor que se expresa mediante la siguiente formulación. Donde; alfa con guión es el valor del estimador insesgado: alfa con sombrerito, hace referencia al alfa de Cronbach Y N es el número de participantes de la muestra. Sin embargo, encontramos que es valor obtenido en la muestra se aproxima al del estimador insesgado cuando el número de participantes tiende a infinito. El estimador insesgado de alfa se expresa mediante la siguiente formulación, donde ….es el estimador insesgado, y ….es el valor obtenido del coeficiente de Cronbach en una determinada muestra. A medida que el tamaño muestral aumenta el estimador insesgado se aproxima al valor alfa encontrado en la muestra.

23 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Estimador insesgado de alfa Ejemplo 1: Ejemplo 2: Alfa y su estimador insesgado difieren más en el ejemplo 2 (0,75 vs 0,78) porque el tamaño de la muestra es menor. Encontramos que alfa, es simplemente un estimador o aproximación al valor real del coeficiente de fiabilidad. Sin embargo, existe una aproximación más exacta de dicho valor que se expresa mediante la siguiente formulación. Donde; alfa con guión es el valor del estimador insesgado: alfa con sombrerito, hace referencia al alfa de Cronbach Y N es el número de participantes de la muestra. Sin embargo, encontramos que es valor obtenido en la muestra se aproxima al del estimador insesgado cuando el número de participantes tiende a infinito. El estimador insesgado de alfa se expresa mediante la siguiente formulación, donde ….es el estimador insesgado, y ….es el valor obtenido del coeficiente de Cronbach en una determinada muestra. A medida que el tamaño muestral aumenta el estimador insesgado se aproxima al valor alfa encontrado en la muestra.

24 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa Alfa proporciona una estimación del coeficiente de fiabilidad de un test a partir de la muestra en que se ha aplicado, pero a veces interesa plantearse si: ¿Puede tomar alfa un valor concreto en la población a partir del valor muestral obtenido? ¿Existe una diferencia significativa entre el valor de alfa de dos muestras independientes? ¿Es significativa la diferencia entre dos valores de alfa para una misma muestra? El coeficiente alfa, proporciona una estimación de la fiabilidad de un test basada en la consistencia interna del mismo a partir de la muestra en que se ha aplicado. Sin embargo, en ocasiones interesa plantearse cuestiones como si: ¿Existen una diferencia significativa entre el valor de alfa de dos o más muestras independientes? ¿Puede tomar alfa un valor concreto en la población? ¿Es la diferencia entre dos valores de alfa para una misma muestra significativa? Todas estas cuestiones, dieron lugar, a principios de los años 60 al desarrollo de la TEORÍA MUESTRAL DEL COEFICIENTE ALPHA. DESARROLLO DE LA TEORÍA MUESTRAL DEL COEFICIENTE ALFA (Feldt, 1965; Kristof,1963)

25 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa 1. ¿Puede tomar alfa un determinado valor en la población a partir del valor muestral obtenido? Kristof (1963) y Feldt (1965), proponen el siguiente estadístico basado en la distribución F 1. Una de las principales preguntas que nos podemos plantear es si alfa, puede tomar un determinado valor en la población a partir del valor muestral obtenido. Para responder a esta pregunta Kristof y Feldt proponen el siguiente estadístico basado en la distribución F. Que se distribuye con (N-1) y (n-1)(N-1) g.l. Alpha, es el valor propuesto por la hipótesis para la población Alpha con sombrerito es el valor obtenido en la muestra. N es el número de sujetos de la muestra n es el número de ítems.

26 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa Tras aplicar un test de percepción espacial de 35 ítems a una muestra de 60 estudiantes, se obtuvo un α de 0,83. ¿Es este coeficiente estadísticamente significativo? (nivel de confianza: 95%). 1. Una de las principales preguntas que nos podemos plantear es si alfa, puede tomar un determinado valor en la población a partir del valor muestral obtenido. Para responder a esta pregunta Kristof y Feldt proponen el siguiente estadístico basado en la distribución F. Que se distribuye con (N-1) y (n-1)(N-1) g.l. Alpha, es el valor propuesto por la hipótesis para la población Alpha con sombrerito es el valor obtenido en la muestra. N es el número de sujetos de la muestra n es el número de ítems.

27 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa 5,88 > 1,47 - Se rechaza la hipótesis nula. El coeficiente alfa es estadísticamente significativo 1. Una de las principales preguntas que nos podemos plantear es si alfa, puede tomar un determinado valor en la población a partir del valor muestral obtenido. Para responder a esta pregunta Kristof y Feldt proponen el siguiente estadístico basado en la distribución F. Que se distribuye con (N-1) y (n-1)(N-1) g.l. Alpha, es el valor propuesto por la hipótesis para la población Alpha con sombrerito es el valor obtenido en la muestra. N es el número de sujetos de la muestra n es el número de ítems.

28 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa 2. ¿Existe una diferencia significativa entre el valor de alfa de dos muestras independientes? Feldt (1969), propone el estadístico de contraste W basado en la distribución F con (N1-1; y N2 –1; grados de libertad) que permite probar la H0: 1= 2 El coeficiente alfa, proporciona una estimación de la fiabilidad de un test basada en la consistencia interna del mismo. Sin embargo, en ocasiones interesa plantearse cuestiones como si: ¿Existen una diferencia significativa entre el valor de alfa de dos o más muestras independientes? ¿Puede tomar alfa un valor concreto en la población? ¿Es la diferencia entre dos valores de alfa para una misma muestra significativa? Todas estas cuestiones, dieron lugar, a principios de los años 60 al desarrollo de la TEORÍA MUESTRAL DEL COEFICIENTE ALPHA.

29 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa Hemos aplicado un test de razonamiento a una muestra de 121 participantes, obteniendo un valor de alfa igual a 0,55. Se aplicó el mismo test a otra muestra de 61 participantes obteniéndose un valor de alfa igual a 0,62. ¿Existen diferencias estadísticamente significativas entre los valores de ambos coeficientes? (N.C. = 95%). El coeficiente alfa, proporciona una estimación de la fiabilidad de un test basada en la consistencia interna del mismo. Sin embargo, en ocasiones interesa plantearse cuestiones como si: ¿Existen una diferencia significativa entre el valor de alfa de dos o más muestras independientes? ¿Puede tomar alfa un valor concreto en la población? ¿Es la diferencia entre dos valores de alfa para una misma muestra significativa? Todas estas cuestiones, dieron lugar, a principios de los años 60 al desarrollo de la TEORÍA MUESTRAL DEL COEFICIENTE ALPHA.

30 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa 1,18 < 1,7 - Se acepta la hipótesis nula. La diferencia entre ambos coeficientes no es estadísticamente significativa. El coeficiente alfa, proporciona una estimación de la fiabilidad de un test basada en la consistencia interna del mismo. Sin embargo, en ocasiones interesa plantearse cuestiones como si: ¿Existen una diferencia significativa entre el valor de alfa de dos o más muestras independientes? ¿Puede tomar alfa un valor concreto en la población? ¿Es la diferencia entre dos valores de alfa para una misma muestra significativa? Todas estas cuestiones, dieron lugar, a principios de los años 60 al desarrollo de la TEORÍA MUESTRAL DEL COEFICIENTE ALPHA.

31 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa 3. ¿Es significativa la diferencia entre dos valores de alfa para una misma muestra? Feldt (1969), propone el estadístico de contraste t basado en la distribución t con (N-2) g.l. Otra importante cuestión que nos podríamos plantear es si existen diferencias significativas entre el valor de alfa de dos o más muestras independientes. Para solucionar esta cuestión, Feld propone el estadístico t , basado en la distribución t de Student con N-2 grados de libertad. Donde alfa1 y alfa2 son los valores alfa obtenidos en cada muestra. Rxx es la correlación al cuadrado entre las puntuaciones de los sujetos obtenidas en ambos test.

32 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa Aplicamos dos tests de percepción visual a una muestra de 125 participantes. La correlación entre las puntuaciones de ambos tests es 0,7. Los valores del coeficiente alfa fueron, respectivamente, 0,75 y 0,84. ¿La diferencia entre estos valores es estadísticamente significativa? (N.C. = 95%). Otra importante cuestión que nos podríamos plantear es si existen diferencias significativas entre el valor de alfa de dos o más muestras independientes. Para solucionar esta cuestión, Feld propone el estadístico t , basado en la distribución t de Student con N-2 grados de libertad. Donde alfa1 y alfa2 son los valores alfa obtenidos en cada muestra. Rxx es la correlación al cuadrado entre las puntuaciones de los sujetos obtenidas en ambos test.

33 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Coeficiente alfa de Cronbach Inferencias sobre alfa 3,5 > 1,98 - Se rechaza la hipótesis nula. La diferencia entre ambos coeficientes es estadísticamente significativa. Otra importante cuestión que nos podríamos plantear es si existen diferencias significativas entre el valor de alfa de dos o más muestras independientes. Para solucionar esta cuestión, Feld propone el estadístico t , basado en la distribución t de Student con N-2 grados de libertad. Donde alfa1 y alfa2 son los valores alfa obtenidos en cada muestra. Rxx es la correlación al cuadrado entre las puntuaciones de los sujetos obtenidas en ambos test.

34 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Casos particulares del coeficiente alfa Casos particulares de Alpha fórmulas de Kuder-Richardson (1937): hacen referencia a la estimación de la fiabilidad de un test en el caso de que los ítems sean dicotómicos  la varianza viene determinada por: Donde ph es la proporción de aciertos; mientras que qh es la de errores. En tal caso, alfa se puede definir mediante KR20 ,o KR21 (cuando los ítems presentan igual dificultad; es decir, la misma proporción de aciertos). Los casos particulares sobre alfa se concretan en las fórmulas de Kuder-Richardson, que hacen referencia a la estimación de la fiabilidad de un test en el caso de que los ítems sean dicotómicos. Lo que implica que la varianza viene de determinada por al producto de p por q, donde p, es la proporción de aciertos, mientras que q, hace referencia a la proporción de errores. En tal caso alfa se puede definir mediante las siguientes expresiones KR20 y KR21 (en el caso de que los ítems tengan la misma dificultad, es decir, la misma proporción de aciertos): Donde: n= es el número de ítems p= es la proporción de aciertos: q= es la proporción de errores Sx= es la varianza total del test. Donde; n= es el número de ítems p= es la proporción de aciertos q= es la proporción de errores S2x= es la varianza total de test. Si aplicamos KR21 con ítems cuya dificultad no es la misma, se obtendrá un valor inferior al de KR20

35 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Casos particulares del coeficiente alfa Supongamos un test compuesto por 6 ítems, y al que responden 6 participantes Calcular el coeficiente de fiabilidad utilizando KR20 y KR21 participantes A B C D E F 1 2 3 4 5 6 Supongamos un test compuesto por 6 ítems, y al que responden 6 sujetos. En primer lugar habrá que calcular las varianzas de cada uno de los ítems, que en este caso al ser dicotómicos es p*q. Así por ejemplo para el ítem 1 será 4/6 por 2/6. Y en segundo lugar, habrá que aplicar KR20, ya que los ítems son de distinta dificultad. Se observa que el valor obtenido es 0.94.

36 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Casos particulares del coeficiente alfa participantes A B C D E F X X2 1 6 36 2 5 25 3 4 16 9 p 0,67 0,5 0,33 q S2 0,22 0,25 Σ 19 87 Supongamos un test compuesto por 6 ítems, y al que responden 6 sujetos. En primer lugar habrá que calcular las varianzas de cada uno de los ítems, que en este caso al ser dicotómicos es p*q. Así por ejemplo para el ítem 1 será 4/6 por 2/6. Y en segundo lugar, habrá que aplicar KR20, ya que los ítems son de distinta dificultad. Se observa que el valor obtenido es 0.94. 1. Primero habría que calcular la varianza de los ítems, que al ser dicotómicos es p*q.

37 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.2. Métodos basados en la covariación de los ítems Casos particulares del coeficiente alfa 2. Y a continuación, se aplica KR20. Se observa que el valor obtenido es de 0,82 Supongamos un test compuesto por 6 ítems, y al que responden 6 sujetos. En primer lugar habrá que calcular las varianzas de cada uno de los ítems, que en este caso al ser dicotómicos es p*q. Así por ejemplo para el ítem 1 será 4/6 por 2/6. Y en segundo lugar, habrá que aplicar KR20, ya que los ítems son de distinta dificultad. Se observa que el valor obtenido es 0.94. Como los ítems no presentan misma dificultad, el valor obtenido con KR21 es más bajo que el obtenido con KR20

38 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.3. Coeficientes basados en el análisis factorial de los ítems: Theta () y Omega () Los coeficientes Theta () de Carmines y Omega () constituyen dos indicadores de la consistencia interna de los ítems de un test, basados en el Análisis Factorial de los ítems. Los coeficientes Theta de Carmines y Omega de Heise y Bohrnstedt son dos indicadores de la consistencia interna de los ítems de un test, basados en el Análisis Factorial de los ítems. En general, se verifica que, para los mismos datos, alpha de Cronbach es menor o igual que theta, y éste menor o igual que omega. En general, para los mismos datos se verifica que       =  =  cuando los ítems son paralelos

39 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.3. Coeficientes basados en el análisis factorial de los ítems: Theta () y Omega () En la siguiente tabla, aparecen los valores de la varianza explicada por los 5 factores obtenidos tras someter a un análisis factorial a 5 variables. La suma de las comunalidades es 4,95 y la suma de las correlaciones entre los ítems es 5,1. Calcular el valor de los coeficientes θ y Ω. Factor Varianza explicada 1 3,286 2 1,346 3 0,224 4 0,128 5 0,014 Los coeficientes Theta de Carmines y Omega de Heise y Bohrnstedt son dos indicadores de la consistencia interna de los ítems de un test, basados en el Análisis Factorial de los ítems. En general, se verifica que, para los mismos datos, alpha de Cronbach es menor o igual que theta, y éste menor o igual que omega.

40 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.3. Coeficientes basados en el análisis factorial de los ítems: Theta () y Omega () Los coeficientes Theta de Carmines y Omega de Heise y Bohrnstedt son dos indicadores de la consistencia interna de los ítems de un test, basados en el Análisis Factorial de los ítems. En general, se verifica que, para los mismos datos, alpha de Cronbach es menor o igual que theta, y éste menor o igual que omega. Efectivamente,    (0,869 < 0,997)

41 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.4. El coeficiente Beta () de Raju El coeficiente beta () de Raju (1977). Cuando un test se divide en varios subtests con distinto número de ítems,  infraestima el coeficiente de fiabilidad si se calcula a partir de la puntuación total de cada subtest. Por el contrario,  supera este problema y proporciona una estimación de la fiabilidad de un test compuesto por distintos subtest (batería de tests), a partir de las puntuaciones totales en ellos. Se aplica  cuando se desconocen las puntuaciones de los participantes en los ítems de los distintos subtests. Si se conocen los valores de estas puntuaciones, es mejor emplear . K=número de subtests. Sx=varianza del test total. Sj=varianza de cada subtest. nj=número de ítems de cada subtest. n= número total de ítems del test. 2 Encontramos que cuando el test se divide en varios subtests con distinto número de ítems, alpha infraestima el coeficiente de fiabilidad si se calcula a partir de la puntuación total de cada subtest. Por el contrario, el coeficiente Beta, supera este problema y proporciona una estimación de la fiabilidad de un test compuesto por distintos subtest (como una batería de test, por ejemplo), a partir de las puntuaciones totales de todos ellos.

42 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.4. El coeficiente Beta () de Raju Se ha aplicado un test compuesto por 4 subtests a una muestra de 200 empleados de correos. Los subtests están compuestos por A=18; B=30; C=45 y D=55 ítems. La varianza total del test es 50 y la de los subtest es . Calcular alfa y beta Así por ejemplo, imaginemos que se ha aplicado un test compuesto por 4 subtest a una muestra de 200 empleados de correos. Los subtests están compuestos por 18, 30, 45, y 55 ítems. La varianza total del test es 50 y la de cada uno de los subtest es 5, 7, 9, y 11. Nos piden calcular el coeficiente alfa y beta. En primer lugar, a partir de las puntuaciones totales, calculamos alfa y encontramos que vale .48. En segundo lugar, encontramos que sin embargo, cuando aplicamos Beta de Raju, encontramos que dicho valor es igual .50 Como se observa, el coeficiente alfa es distinto que el coeficiente Beta, cuando los subtest tienen distinto número de ítems. En el caso, de que tuvieran el mismo número de ítems Beta sería igual que alfa.

43 LA FIABILIDAD COMO CONSISTENCIA INTERNA
1.4. El coeficiente Beta () de Raju 1. A partir de las puntuaciones totales, calculamos alfa y encontramos que vale 0,48 Así por ejemplo, imaginemos que se ha aplicado un test compuesto por 4 subtest a una muestra de 200 empleados de correos. Los subtests están compuestos por 18, 30, 45, y 55 ítems. La varianza total del test es 50 y la de cada uno de los subtest es 5, 7, 9, y 11. Nos piden calcular el coeficiente alfa y beta. En primer lugar, a partir de las puntuaciones totales, calculamos alfa y encontramos que vale .48. En segundo lugar, encontramos que sin embargo, cuando aplicamos Beta de Raju, encontramos que dicho valor es igual .50 Como se observa, el coeficiente alfa es distinto que el coeficiente Beta, cuando los subtest tienen distinto número de ítems. En el caso, de que tuvieran el mismo número de ítems Beta sería igual que alfa. 2. Sin embargo, cuando aplicamos  de Raju encontramos que dicho valor es 0,50 Sólo en el caso de que los distintos subtests contengan el mismo número de ítems, alfa y beta serán iguales.

44 Desigualdad de Chebychev.
2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS Tras obtener un valor del coeficiente de fiabilidad, la siguiente pregunta relevante que nos podemos hacer es: ¿Cómo hacer estimaciones acerca del valor de la puntuación verdadera de un participante?: Desigualdad de Chebychev. Estimación basada en la distribución normal de los errores. Estimación basada en el modelo de regresión. Tras haber estudiado el problema de cómo calcular la fiabilidad de un test. El siguiente paso es plantearse cómo hacer estimaciones acerca del valor de la puntuación verdadera de los participantes. Para ello, se suele recurrir a tres procedimientos distintos: La desigualdad de Chebychev. La estimación basada en la distribución normal de los errores. La estimación basada en el modelo de regresión.

45 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.1. Estimación basada en la desigualdad de Chebychev No asume ningún tipo de distribución ni de las puntuaciones empíricas ni de los errores de medida y permitió, por primera vez, hacer estimaciones. Mediante la desigualdad de Chebychev no se asume ningún tipo de distribución ni de las puntuaciones empíricas, ni de los errores de medida. La desigualdad de Chebychev estable que la probabilidad de que una variable aleatoria esté distanciada de su media en meno.. de k veces su desviación típica es mayor o igual que 1-1/k cuadrado. Ello, se expresa formalmente mediante la siguiente expresión donde: 1-1/K^2 es el nivel de confianza Si lo traducimos en términos psicométricos, basándonos en los supuestos del modelo lineal propuesto por Spearman, tendríamos que sustituir la media por la puntuación verdadera y la desviación típica por el error típico de medida.

46 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.1. Estimación basada en la desigualdad de Chebychev Se ha administrado un test cuyo rxx’ = 0,73 a 200 participantes (Media = 52; y Desviación típica = 7). Con los datos obtenidos, estimar la puntuación verdadera de un participante que obtuvo una puntuación de 65 (NC 95%) utilizando el método de la desigualdad de Chebychev. -Imaginemos que se ha administrado un test cuyo coeficiente de fiabilidad es 0.73 a una muestra de 200 participantes y se ha obtenido una media de 52, una desviación típica de 7 y un coeficiente de fiabilidad de 0.73. 1. En primer lugar calculamos el error típico de medida que resulta ser 3.64. 2. En segundo lugar hemos de despejar el valor de K, por ello sabiendo que 1 menos 1/k cuadrado es el nivel de confianza podríamos obtener el valor de K. En este caso, vemos que vale 4.5. 3. Y en tercer lugar, sustituyendo todos los valores en la desigualdad y comprobamos que con una probabilidad del 95%, la puntuación verdadera de un participante que ha obtenido una empírica de 65 se encuentra entre una valor de y A simple, vista se puede apreciar que se trata de un intervalo de confianza excesivamente amplio.

47 2.1. Estimación basada en la desigualdad de Chebychev
2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS 2.1. Estimación basada en la desigualdad de Chebychev Intervalo muy amplio -Imaginemos que se ha administrado un test cuyo coeficiente de fiabilidad es 0.73 a una muestra de 200 participantes y se ha obtenido una media de 52, una desviación típica de 7 y un coeficiente de fiabilidad de 0.73. 1. En primer lugar calculamos el error típico de medida que resulta ser 3.64. 2. En segundo lugar hemos de despejar el valor de K, por ello sabiendo que 1 menos 1/k cuadrado es el nivel de confianza podríamos obtener el valor de K. En este caso, vemos que vale 4.5. 3. Y en tercer lugar, sustituyendo todos los valores en la desigualdad y comprobamos que con una probabilidad del 95%, la puntuación verdadera de un participante que ha obtenido una empírica de 65 se encuentra entre una valor de y A simple, vista se puede apreciar que se trata de un intervalo de confianza excesivamente amplio.

48 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.2. Estimación basada en la distribución normal de los errores, puntuación directa Asume la distribución normal de E y de las X empíricas condicionadas a un determinado valor de V. Otro procedimiento para estimar la puntuación verdadera de los sujetos es la estimación basada en la distribución normal de los errores: para ello, se asume la distribución normal de los errores y de las puntuaciones empíricas condicionadas a un determinado valor de V. Las fases a seguir serían: Se fija un nivel de confianza y se determina el valor de Z correspondiente. A continuación se calcula el error típico de medida. En tercer lugar se calcula el error de medida máximo que estamos dispuestos a asumir, que viene dado por al producto de la Z crítica y del error típico de medida. Lógicamente, a mayor error de medida, mayor será el intervalo correspondiente. Y en cuarto lugar, se calcula el intervalo confidencial de la puntuación verdadera; que viene dado por la puntuación empírica más menos el error máximo. Con los datos del ejercicio anterior, calcular el intervalo según la distribución normal de los errores dando el resultado en puntuación directa

49 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.2. Estimación basada en la distribución normal de los errores, puntuación directa Este intervalo es menos amplio que el anterior, debido a que estamos asumiendo cierta distribución de probabilidad en los datos, cosa que no ocurría antes. Así, con los datos del ejemplo anterior, calcular el intervalo según la distribución normal de los errores. En este caso: 1. En primer lugar habría que determinar el valor de Z crítico, asociado al intervalo de confianza. En este caso sería 1.96 2. En segundo lugar se calcula el error típico de medida, que ya sabíamos que era 3.64. 3. En tercer lugar hay que determinar el error máximo asumido en función del nivel de confianza con el que estemos trabajando y la precisión con la que medimos que en nuestro caso sería 7.13. 4. Y por último se calcula el intervalo de confianza para la puntuación verdadera en función de la puntuación empírica dada. En este caso, se encuentra entre y Si comparamos este intervalo con el obtenido en función de la desigualdad de chebychev, observamos que es bastante menos amplio. Ello se debe a que en este caso, estamos asumiendo cierta distribución de probabilidad en los datos, cosa que no ocurría anteriormente. Se = 3,64 (ya calculado para la estimación mediante la igualdad de Chebychev)

50 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.2. Estimación basada en la distribución normal de los errores, puntuación diferencial Asume la distribución normal de E y de las X empíricas condicionadas a un determinado valor de V. Se calcula igual que en el apartado de puntuaciones directas Con los datos del ejercicio anterior, calcular el intervalo según la distribución normal de los errores dando el resultado en puntuación diferencial

51 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.2. Estimación basada en la distribución normal de los errores, puntuación diferencial Ya calculado

52 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.2. Estimación basada en la distribución normal de los errores, puntuación tipificada Asume la distribución normal de E y de las X empíricas condicionadas a un determinado valor de V. Es la misma que la que hallamos en el apartado de puntuaciones directas Con los datos del ejercicio anterior, calcular el intervalo según la distribución normal de los errores dando el resultado en puntuación tipificada

53 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.2. Estimación basada en la distribución normal de los errores, puntuación tipificada Ya calculado:

54 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.3. Estimación basada en el modelo de regresión lineal, puntuaciones directas Dado que X siempre está afectada por errores de medida (E) podríamos hacer estimaciones puntuales de V, y a posteriori establecer intervalos de confianza en torno a ella. Es decir, utilizar V’ en lugar de X para construir el intervalo de confianza. Mediante el método de regresión, podemos hacer estimaciones puntuales de V a partir de la puntuación empírica. A posteriori se establecen intervalos de confianza en torno a la puntuación verdadera pronosticada. Como sabemos, en el modelo de regresión lineal la predicción de una variable Y a partir de otra X viene expresada mediante la siguiente ecuación. Svx = error típico de estimación de la puntuación verdadera Con los datos del ejemplo anterior, calcular el intervalo según el método de regresión para puntuaciones directas.

55 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.3. Estimación basada en el modelo de regresión lineal, puntuaciones directas Se = 3,64 (ya calculado para los métodos anteriores) Así, con los datos del ejemplo anterior, calcular el intervalo según el método de regresión. 1. En este caso, en primer lugar habría que determinar el valor de Z crítico, asociado al intervalo de confianza. En este caso sería 1.96 2. En segundo lugar se calcula el error típico de estimación, que es 3.09. 3. En tercer lugar hay que determinar el error máximo asumido en función del nivel de confianza con el que estemos trabajando y la precisión a la hora de estimar las puntuaciones verdaderas. 4. Y por último se calcula el intervalo de confianza para la puntuación verdadera en función de la puntuación verdadera pronosticada. En este caso, se encuentra entre y Si comparamos este intervalo con los obtenidos en función de la desigualdad de chebychev, y en función de la distribución normal de los errores, observamos que es el menos amplio de todos. Es decir, el método de regresión nos garantiza, que a la larga, los errores de pronóstico cometidos serán mínimos. 48,62 ≤ V ≤ 81,38 Si comparamos los intervalos obtenidos con los tres métodos, vemos que éste último es el menos amplio de todos (el más preciso) 57,87 ≤ V ≤ 72,13 55,43 ≤ V ≤ 67,55

56 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.3. Estimación basada en el modelo de regresión lineal, puntuaciones diferenciales Dado que X siempre está afectada por errores de medida (E) podríamos hacer estimaciones puntuales de V, y a posteriori establecer intervalos de confianza en torno a ella. Es decir, utilizar V’ en lugar de X para construir el intervalo de confianza. Igual que en puntuaciones directas Mediante el método de regresión, podemos hacer estimaciones puntuales de V a partir de la puntuación empírica. A posteriori se establecen intervalos de confianza en torno a la puntuación verdadera pronosticada. Como sabemos, en el modelo de regresión lineal la predicción de una variable Y a partir de otra X viene expresada mediante la siguiente ecuación. Con los datos del ejemplo anterior, calcular el intervalo según el método de regresión para puntuaciones diferenciales.

57 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.3. Estimación basada en el modelo de regresión lineal, puntuaciones diferenciales

58 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.3. Estimación basada en el modelo de regresión lineal, puntuaciones tipificadas Dado que X siempre está afectada por errores de medida (E) podríamos hacer estimaciones puntuales de V, y a posteriori establecer intervalos de confianza en torno a ella. Es decir, utilizar V’ en lugar de X para construir el intervalo de confianza. La misma que para puntuaciones directas Mediante el método de regresión, podemos hacer estimaciones puntuales de V a partir de la puntuación empírica. A posteriori se establecen intervalos de confianza en torno a la puntuación verdadera pronosticada. Como sabemos, en el modelo de regresión lineal la predicción de una variable Y a partir de otra X viene expresada mediante la siguiente ecuación. Con los datos del ejemplo anterior, calcular el intervalo según el método de regresión para puntuaciones tipificadas.

59 2. ESTIMACIÓN DE LA PUNTUACIÓN VERDADERA DE LOS PARTICIPANTES EN EL ATRIBUTO DE INTERÉS
2.3. Estimación basada en el modelo de regresión lineal, puntuaciones tipificadas

60 3. VALORACIÓN DE LA TEORÍA CLÁSICA DE LOS TEST
Ventajas: Parsimonia y enjundia psicológica. Ha sabido dar soluciones prácticas a una amplia diversidad de situaciones (Muñiz, 2001). Limitaciones: Los supuestos no se pueden comprobar empíricamente. Concepto de error de medida: a) homogéneo a lo largo del continuo de aptitud b) errores independientes c) concepto general que engloba todas las fuentes de variabilidad. Medidas estrictamente paralelas. Carácter variante y dependiente de sus índices. Estimación de la fiabilidad  múltiples procedimientos La TCT destaca por su parsimonia y enjundia psicológica. Lo que ha propiciado que se aplique en una amplia gama de situaciones diversas. Sin embargo, no deja de presentar algunas limitaciones: entre ellas destacan: Que los supuestos no se pueden comprobar empíricamente. Por lo tanto, no son falsables y nunca sabremos si el modelo sirve para representar a los datos. En segundo lugar es muy cuestionado el concepto de error de medida. Destacan tres aspectos: a) presenta un error de medida indiferenciado a lo largo de todo el continuo de habilidad, es decir, el error de medida es el mismo para todos los sujetos.; b) el supuesto de que los errores son independientes es muy cuestionado, sobre todo a partir de que cuando se permite que los errores correlacionen se obtienen mejores resultados; y c) el concepto global de error que engloba a todas las fuentes de variabilidad es muy cuestionado. También han recibido fuertes críticas el supuesto de medidas paralelas, debido a su difícil cumplimiento. Una de las críticas más feroces está en relación con el carácter dependiente y variante de los índices obtenidos bajo la TCT. Ya que los parámetros de los ítems, varían en función de la muestra de sujetos utilizada y viceversa. Por último, uno de los aspectos más importantes dentro de la TCT, que es el concepto de fiabilidad, no ha sabido resolver adecuadamente el problema de su estimación, existiendo múltiples procedimientos. Lo que ha contribuido a generar confusión, ya que el índice obtenido, va a depender del método utilizado.

61 Problemas relacionados con el error de medida.
3. VALORACIÓN DE LA TEORÍA CLÁSICA DE LOS TEST Encontramos una ventaja inherente a sus propias limitaciones, ya que dichas limitaciones han promovido el desarrollo de otras importantes teorías, que han intentado superar: Problemas relacionados con el error de medida. Dependencia de los instrumentos de medida sobre los propios objetos de medida y viceversa. No debemos olvidar que la TCT supone la primera formulación matemática de una teoría sobre las puntuaciones de los tests y, por tanto, su posición en la mayoría de los programas docentes y manuales que se publican está más que justificado A pesar de todos estos inconvenientes que presenta la TCT, algunos fundamentales, encontramos una ventaja inherente en sus propias limitaciones. Dichas limitaciones, han servido de acicate para el desarrollo de otras importantes teorías, que veremos a continuación, y que han intentado superar, por ejemplo, problemas relacionados con el error de medida, o con la dependencia de los instrumentos de medida sobre los propios objetos de medida y viceversa. De hecho, no debemos olvidar que se trata de la primera formulación matemática de una teoría sobre las puntuaciones de los tests, y por tanto su lugar en la mayoría de los programas docentes universitarios y en los manuales que se siguen publicando sobre la temática está más que justificado.

62 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Tests Referidos a la Norma (TRN): ordenan a los participantes respecto a su grupo según su nivel en el rasgo medido  un participante que ocupa el P90 está por encima del 90% de participantes de su grupo en el rasgo medido por el test. En los años 60, en evaluación educativa, surge la necesidad de construir tests que evalúen directamente el conocimiento de los estudiantes sobre los objetivos programados, a partir de lo que surgen los tests referidos al criterio (TRC). ¿Qué tipo de problemas es capaz de resolver la persona?¿Qué tipo de resolución requiere?¿Cuál es el límite de la capacidad del participante?: “Un TRC se utiliza para evaluar el status absoluto del participante con respecto a algún dominio de conductas bien definido” (Popham, 1978) De manera tradicional, los tests referidos a normas tratan de ordenar a los participantes respecto a su grupo según su nivel en el rasgo medido. Si decimos que el participante A ocupa el percentil 90 estaremos indicando que está por encima del 90% de los participantes de su muestra. Sin embargo, en los años sesenta aparece la necesidad de construir tests que evalúen directamente el conocimiento que tienen los estudiantes de los objetivos programados, y más que una variable psicológica estos tests van dirigidos a evaluar el dominio de los participantes sobre el criterio que se esté midiendo, de ahí su denominación de Tests Referidos al Criterio. De esta forma, podemos decir que un test referido al criterio se utiliza para evaluar el status absoluto del participante con respecto a algún dominio de conductas bien definido. Ello ha propiciado el desarrollo de algunos aspectos importantes en evaluación como son:

63 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
TRN TRC Finalidad Diferencias individuales Rendimiento Construcción Teorías existentes Especificación del dominio Selección de los ítems Maximizar diferencias individuales Según objetivos Significado de las puntuaciones Indicador de la puntuación verdadera Estimador del rendimiento del participante en el dominio Interpretación de las puntuaciones Se compara con su grupo normativo Con significado en términos absolutos Las diferencias entre los TRN y los TRC no siempre son aparentes. Sin embargo, para Martínez-Arias estas diferencias hacen referencia a 5 aspectos fundamentales: 1. La finalidad de la evaluación. Mientras que en los TRN el objetivo es poner de manifiesto las diferencias individuales, en los TRC es estimar el rendimiento del participante en los objetivos que mide el tests. 2. Un segundo aspecto que diferencia a los TRN frente a los TRC, es el proceso de construcción del test y especificación de los contenidos. En los TRN cuando se construye el test, se suele recurrir a las teorías existentes respecto al rasgo que se está midiendo, sin embargo en los TRC lo primero sería especificar de una manera clara el dominio de contenidos que se quiere evaluar. 3. Un tercer aspecto es la forma de seleccionar los ítems. En los TRN se debe intentar maximizar las diferencias individuales, para lo que hay que maximizar la varianza del test seleccionando ítems de dificultad media y alto poder discriminativo. Por el contrario en los TRC los ítems se seleccionan en función de los objetivos y del uso que se va a hacer del test. 4. En cuarto lugar, cabe citar que si bien en los TRN la puntuación obtenida por los participantes se considera un indicador de su puntuación verdadera, en los TRC la puntuación es un estimador del rendimiento del participante en el dominio. 5. Por último, mientras que en los TRN la puntuación de un participante tiene sentido en tanto se compara con los resultados de su grupo normativo, en los TRC la puntuación tiene significado en términos absolutos. 12. Otro hito importante para el desarrollo de la Psicometría vino de la mano de los avances en el campo de la informática. De esta forma, se han modificado los procedimientos de administración de test y se han desarrollado aplicaciones a través del ordenador. (Martínez-Arias, p. 657)

64 Impulso de algunos aspectos como:
4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO Impulso de algunos aspectos como: Definir con mayor claridad los objetivos de interés. Muestrear exhaustivamente los objetivos a evaluar. Nuevas formas de evaluar la fiabilidad y validez. Establecer los puntos de corte más apropiados. Detectar los puntos fuertes y débiles de los participantes. Ello ha propiciado el desarrollo de algunos aspectos importantes en evaluación como son: Definir con mayor claridad los objetivos de interés. Muestrear exhaustivamente los objetivos a evaluar. Nuevos procedimientos para evaluar la fiabilidad y validez Establecer los puntos de corte mas apropiados. Y detectar los puntos fuertes y débiles de los participantes.

65 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Fiabilidad: determinar el grado de error presente en las mediciones. Objetivo en los TRC: clasificar a las personas entre las que dominan el criterio y las que no Fiabilidad consistencia o precisión en las clasificaciones realizadas por el test Si recordamos, la fiabilidad trata de determinar el grado de error presente en las mediciones. Por otro lado, el objetivo en los TRC, es clasificar a las personas entre las que dominan el criterio y las que no. Por tanto, el concepto de fiabilidad en los TRC se traduce en determinar la precisión o consistencia en las clasificaciones realizadas por el test. Estas clasificaciones se pueden realizar tras dos aplicaciones del test, ya sean dos formas paralelas o el mismo test, o tras una sola aplicación del mismo. Dos aplicaciones del test Una sola aplicación del test

66 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Dos aplicaciones: en este caso podemos aplicar el mismo test a una muestra; o dos formas paralelas. Fiabilidad perfecta  clasificación idéntica en ambas aplicaciones. Procedimientos para su evaluación: 1. Coeficiente p0 de Hambleton y Novick: 2. Coeficiente Kappa: Donde: Fc= número de personas clasificadas de manera coincidente por ambos tests. N= número total de personas. Donde: Fc= número de personas clasificadas de manera coincidente por ambos tests. Fa= coincidencia por azar. N= número total de personas. Cuando disponemos de dos aplicaciones , podemos aplicar es mismo test a una misma muestra, o dos formas paralelas. En este caso, una fiabilidad perfecta implica que la clasificación que realizan el test entre aptos y no-aptos, por ejemplo, es idéntica en ambas aplicaciones. En general, existen distintos procedimientos para su evaluación. Entre ellos destacamos: El coeficiente p0 de Hambleton y Novick, donde Fc es el número de personas en la que ambos tests coinciden en la clasificación; y N es el número total de personas. Y el coeficiente Kappa, que tiene en cuenta las coincidencias por azar. Donde Fc, al igual que en el caso anterior, es el número de personas en la que ambos tests coinciden en la clasificación, Fa que es la frecuencia de coincidencias por azar; y N que es el número total de casos.

67 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Test B Test A Apto No-apto Total a b g c d h e f N De esta forma, imaginemos que se ha aplicado dos test paralelos de Psicometría, a una muestra de 20 participantes. Las clasificaciones realizadas se muestran en la siguiente, de tal forma que ambos tests han clasificado a dos participantes como aptos; 14 como no-aptos. De esta forma, si aplicamos el coeficiente p0, de hambleton y novick, encontramos que la consistencia en las clasificaciones o fiabilidad es de .80. En segundo lugar, aplicamos kappa, de cohen y vemos que la fiabilidad se reduce considerablemente debido a que considera las clasificaciones realizadas por azar. En este caso es de .38.

68 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Se han aplicado dos tests paralelos de Psicometría a 20 participantes. Las clasificaciones realizadas se muestran en la siguiente tabla. Calcular la fiabilidad de la clasificación utilizando el coeficiente p0 de Hambleton y Novick y el coeficiente Kappa. Test B Test A Apto No-apto 2 3 1 14 De esta forma, imaginemos que se ha aplicado dos test paralelos de Psicometría, a una muestra de 20 participantes. Las clasificaciones realizadas se muestran en la siguiente, de tal forma que ambos tests han clasificado a dos participantes como aptos; 14 como no-aptos. De esta forma, si aplicamos el coeficiente p0, de hambleton y novick, encontramos que la consistencia en las clasificaciones o fiabilidad es de .80. En segundo lugar, aplicamos kappa, de cohen y vemos que la fiabilidad se reduce considerablemente debido a que considera las clasificaciones realizadas por azar. En este caso es de .38.

69 4. INTRODUCCIÓN A LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Test B Test A Apto No-apto Total 2 (a) 3 (b) 5 (g) 1 (c) 14 (d) 15 (h) 3 (e) 17 (f) 20 (N) 1. Aplicando p0 vemos que los tests coinciden en clasificar a 2 aptos y 14 no-aptos la fiabilidad es 0,80 2. Aplicando K vemos que la fiabilidad se reduce considerablemente al considerar las coincidencias por azar. De esta forma, imaginemos que se ha aplicado dos test paralelos de Psicometría, a una muestra de 20 participantes. Las clasificaciones realizadas se muestran en la siguiente, de tal forma que ambos tests han clasificado a dos participantes como aptos; 14 como no-aptos. De esta forma, si aplicamos el coeficiente p0, de hambleton y novick, encontramos que la consistencia en las clasificaciones o fiabilidad es de .80. En segundo lugar, aplicamos kappa, de cohen y vemos que la fiabilidad se reduce considerablemente debido a que considera las clasificaciones realizadas por azar. En este caso es de .38.

70 5. OTRAS APROXIMACIONES AL ESTUDIO DE LA FIABILIDAD
5. OTRAS APROXIMACIONES AL ESTUDIO DE LA FIABILIDAD. LA FIABLIDAD EN LA METODOLOGÍA OBSERVACIONAL Fiabilidad: Grado de precisión de la medida, o del instrumento de medida utilizado. En Metodología observacional, por ejemplo, el instrumento de medida más común es un “Sistema de categorías” que análogamente a un test pretende “recoger la variabilidad del comportamiento del participante en el dominio comportamental que se esté estudiando”. Procedimientos más habituales en su cálculo se basan en los mismos principios utilizados bajo la lógica de los TRC medir la consistencia en las clasificaciones, en este caso de distintos observadores: Índice de Acuerdo (aproximación exploratoria); Coeficiente Kappa. Como ya hemos comentado a lo largo de todo el capítulo, la fiabilidad, hace referencia al grado de precisión de la medida, o del instrumento de medida utilizado. En el caso de la metodología observacional el instrumento de medida más común es un sistema de categorías que al igual que un test pretende recoger la variabilidad del comportamiento del participante en el domino conductual que se pretende estudiar. Por otro lado, los procedimientos más habituales para su cálculo se basan en los mismos principios que los utilizados bajo la lógica de los Test Referidos al Criterio. Ya que el objetivo es cuantificar la consistencia en las clasificaciones realizadas por los distintos observadores utilizados en el estudio. Por ello, entre los más utilizados se encuentran el índice de acuerdo (que ha de tomarse como una aproximación exploratoria) y el coeficiente Kappa.

71 5. OTRAS APROXIMACIONES AL ESTUDIO DE LA FIABILIDAD
5. OTRAS APROXIMACIONES AL ESTUDIO DE LA FIABILIDAD. LA FIABLIDAD EN LA METODOLOGÍA OBSERVACIONAL Sólo pretendemos indicar que la fiabilidad no es exclusiva de la teoría de tests, sino que el problema de la precisión es común a cualquier aproximación científica que implique medición. Lo exclusivo es que cada aproximación adapta el método a sus peculiaridades de estudio Con ello, sólo pretendemos indicar que la fiabilidad no es exclusiva de la teoría de tests, sino, que el problema de la precisión es común a cualquier aproximación científica que implique medición. Lo exclusivo es que cada aproximación adapta el método a sus peculiaridades de estudio

72 7. BIBLIOGRAFÍA COMENTADA
1. Barbero, I., García, E., Vila, E. y Holgado, F. P. (2010). Psicometría: Problemas resueltos. Madrid: Sanz y Torres. Se trata de un libro de ejercicios y problemas en el que se incluye el desarrollo de la solución. El alumnado podrá completar desde un punto de vista aplicado los conceptos y contenidos vistos en la parte teórica; así como adquirir las destrezas necesarias para la resolución de problemas. 2. Barbero, I., Vila, E. y Holgado, F. P. (2010). Psicometría. Madrid: Sanz y Torres. En el capítulo 4 se introduce el modelo lineal clásico y el concepto de tests paralelos, así como la interpretación del coeficiente de fiabilidad y distintos métodos para su estimación; y el capítulo 5 se centra en la fiabilidad de los TRC. 3. Gómez-Benito, J. (1996). Aportaciones de los modelos de estructuras de covarianza al análisis psicométrico. En J. Muñiz (Coord.), Psicometría. Madrid: Universitas. El capítulo 10 define conceptos fundamentales como coeficiente de fiabilidad y tests paralelos desde modelos de ecuaciones estructurales.

73 7. BIBLIOGRAFÍA COMENTADA
4. Martínez Arias, R. (1995). Psicometría: Teoría de los Tests Psicológicos y Educativos. El Capítulo 3 presenta de una forma clara los conceptos básicos del modelo clásico. Los tres primeros apartados del Capítulo 4 también se pueden consultar para la preparación de este tema. Presenta numerosos ejercicios que permiten aplicar los conocimientos teóricos adquiridos. 5. Meliá, J. L. (2000). Teoría de la Fiabilidad y la Validez. Valencia: Cristóbal Serrano. En los Capítulos 3 y 4 expone el modelo lineal clásico de los errores de medida, el concepto de coeficiente e índice de fiabilidad y la definición de tests paralelos. El Capítulo 6 destaca algunas de las críticas. En el Capítulo 6 se trata la consistencia interna y los factores que afectan a la estimación de la fiabilidad. 7. Muñiz, J. (1996). Fiabilidad. En J. Muñiz (Coord.), Psicometría. Madrid: Universitas. En el Capítulo 1 se resumen los conceptos fundamentales del modelo lineal clásico y la definición de paralelismo. 6. Nunnally, J. C. y Bernstein, I. J. (1995). Teoría Psicométrica. México: McGraw Hill. El Capítulo 6 presenta aspectos sobre supuestos y deducciones del modelo clásico. En el Capítulo 7 se presentan algunas limitaciones y extensiones del modelo lineal clásico.


Descargar ppt "Tema 5.2 Evaluación del instrumento de medida:"

Presentaciones similares


Anuncios Google