TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón.

TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón Moscoso Susana Sanduvete Chaves Dpto. de Psicología Experimental. Universidad de Sevilla.

Recordando..., la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente:  teórica : supone la fundamentación teórica de la medida.  aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés. Recordando..., la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente:  teórica : supone la fundamentación teórica de la medida.  aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés.

Dentro de los parámetros de los ítems se suele estimar la dificultad, discriminación, pseudoadivinación, homogeneidad, información, fiabilidad y validez, si bien según sea el marco teórico que se adopte teoría clásica de los tests, teoría de respuesta al ítem o medición referida al criterio- algunos de ellos serán definidos e interpretados/valorados de distinto modo y se estimará un determinado número de estos parámetros, no todos. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992 o Santisteban, 1990).

 Evaluación del instrumento.  Análisis de la calidad de los ítems.  Estudio de la fiabilidad del instrumento  Estudio de la validez del instrumento.  Evaluación del instrumento.  Análisis de la calidad de los ítems.  Estudio de la fiabilidad del instrumento  Estudio de la validez del instrumento.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico. FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los ítems del mismo y estudiar la fiabilidad y validez del instrumento. FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los ítems del mismo y estudiar la fiabilidad y validez del instrumento.

Análisis de los ítems

El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés. El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés.

Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir. Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir.

- No hay un coeficiente único que reporte datos sobre la validez de los ítems o sistema de indicadores, sino que los datos para establecer juicios sobre su validez vienen dados por: 1. Los resultados de combinar distintas técnicas. 2. Por evidencias empíricas basadas en experiencias anteriores. 3. La utilidad que muestren para el modelo de medida propuesto

-De acuerdo con ello, es necesario dotar a los ítems o indicadores de distintas evidencias de validez, en concreto: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2.Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3.Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2.Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3.Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990).

-En general, los distintos tipos de validez, no son entidades distintas, sino que son el resultado de distintas aproximaciones al concepto de validez de los indicadores o ítems en nuestro caso. Los ítems o el sistema de indicadores es coherente con investigaciones previas Se corresponda con el modelo teórico referente Modelo de medida a partir del cual programar acciones en el campo aplicado, en nuestro caso, de la psicología. Útil para nuestros propósitos

Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los ítems, en cuanto a su validez de constructo suele recurrirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los ítems, en cuanto a su validez de constructo suele recurrirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables.

A titulo de ejemplo, podemos establecer que el concepto de Calidad Universitaria puede contemplarse desde un modelo de medida en el que Enseñanza, Investigación y Gestión son dimensiones (factores) más específicas del mismo y se asume que estos factores son causas efectivas de distintos indicadores o ítems, que son vistos como efectos de los mismos, es decir, los indicadores son manifestaciones empíricas que permiten medir dichas variables latentes.

Un modo alternativo al planteamiento anterior, supone establecer el concepto de Calidad Universitaria desde un modelo en el que Enseñanza, Investigación y Gestión son dimensiones específicas (factores) que afectan o modulan a dicho concepto general y se asume que estos factores, a su vez, son modulados por distintos indicadores o ítems, que son considerados como causas efectivas de los mismos, es decir, supone definir a los constructos como funciones lineales de los indicadores más una parte de error. Los factores pueden ser asumidos como variables compuestas por variables observadas, expresadas como combinaciones lineales de éstas (McCallum y Browne, 1993).

La calidad universitaria es función de indicadores observables que conforman el concepto “calidad”. Decimos que la calidad será mejor o peor en función de los valores de los indicadores, y no que es la calidad universitaria la que provoca cambios en los indicadores.

: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los ítems desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los ítems desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes.

Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los ítems que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación...). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco teórico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990). Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los ítems que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación...). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco teórico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990).

Índice de dificultad (ID) Proporción de sujetos que responden correctamente al ítem. Es un í ndice descriptivo de la distribución de respuestas y/o puntuaciones del ítem: donde: A: Número de sujetos que aciertan el ítem. N: Número de sujetos que han intentado resolver el ítem.

Índice de dificultad (con corrección del azar) Proporción de sujetos que responden correctamente al ítem corrigiendo las posibles aciertos por azar: donde: A: Número de sujetos que aciertan el ítem. E: Número de sujetos que han fallado el ítem. n: Número de alternativas de respuestas del ítem. N: Número de sujetos que han intentado resolver el ítem.

En general, un ítem en mejor cuanto mayor sea su varianza. Los mejores ítems son los que tienen un índice de dificultad de 0.5, porque optimizan la variabilidad del ítem. Por lo que respecta al test en su conjunto, para que discrimine adecuadamente entre los niveles de habilidad de todos los sujetos se han propuesto criterios para incluir proporcionalmente ítems, con diferentes valores en sus ID, en el tests. Osterlind recomienda, en tests de rendimiento, índices de dificultad que oscilen entre 0.4 y 0.8.

Yela (1980) recomienda la siguiente distribución de ítems en el test: Categorías Centíl en el constructo % Aproximado Índices de Dificultad Muy fáciles 0 - 10 10% 0.75 a 0.95 Fáciles 10 – 30 20% 0.55 a 0.74 Normales 30 - 70 40% 0.45 a 0.54 Difíciles 70 - 90 20% 0.25 a 0.44 Muy difíciles 90 – 100 10% 0.05 a 0.24 En este mismo sentido, Garret (1968) propone: Categorías Centíl en el constructo % Aproximado Índices de Dificultad. Fáciles 0 - 25 25% 0.75 a 0.95 Medios 25 - 75 50% 0.26 a 0.74 Difíciles 75 – 100 25% 0.05 a 0.25

Comportamiento del ID de un ítem por niveles de habilidad de los sujetos

Índice de discriminación (r ix ) Es un índice que relaciona el ítem con el test y se define como “la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en el test” (Muñiz, 1998, p.219) Su mayor utilidad es diferenciar a los sujetos con puntuaciones altas en el test de aquellos que las tienen bajas. En general, se obtiene aplicando los principios de la correlación de Pearson, adaptando el cálculo a las características o modos en que los ítems vienen medidos. En la literatura psicométrica podemos encontrar diferentes formas de calcular este índice

Índice de discriminación clásico (Croker y Algina, 1986). donde: Ps es la proporción de sujetos del grupo superior en el criterio que responden correctamente al ítem. y Pi es la proporción de sujetos del grupo inferior que responden correctamente al ítem.

Índice de discriminación basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación producto-momento de Pearson (r xy )

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial puntual (r bp ) donde: µ p : Media en el test de los sujetos que han acertado el ítem µ x : Media del test  x : Desviación típica del test p: Proporción de sujetos que aciertan el ítem q: 1-p

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial (r b ) donde: µ p : Media en el test de los sujetos que han acertado el ítem µ x : Media del test  x : Desviación típica del test p: Proporción de sujetos que aciertan el ítem y: Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a “p” (los valores se pueden encontrar en la tabla estadística correspondiente.

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Phi (  ) donde: a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un tests dicotómico.

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Tetracórico (r t ) donde: a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem y un test ambos dicotomizados. asumiendo distribuciones normales

Índice de Validez El índice de validez de un ítems está referido a su correlación con un criterio externo al propio test. Como ocurre con el índice de discriminación su calculo dependerá de la naturaleza de las variables con las que se correlacione el ítem, es decir, las distintas fórmulas de correlación reseñadas en el índice de discriminación pueden ser utilizadas para el cálculo del índice de validez. Su cálculo es idéntico, si bien ahora no existe el problema adicional de que el ítem esté incluido en el criterio como podía ocurrir en el caso del índice de discriminación.

Información estadística: análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-. El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión. Información estadística: análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-. El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión.

Haladyna (1994) propone tres vías para recoger información acerca del funcionamiento de los distractores: 1. La tabla de frecuencias (Levine y Drasgow, 1982; Walner, 1989). 2. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). 3. Índices estadísticos (correlación distractor-puntuación total en el test, media en el test de los sujetos que eligen un distractor,  2 ).

1. La tabla de frecuencias (Levine y Drasgow, 1982; Walner, 1989). Análisis de las alternativas incorrectas (Muñiz, 1998). Alternativas ABC*DE ÍtemSuperior51570100100 Inferior15652000100 208090100200

2. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). Este enfoque se lleva a cabo desde la TRI. Consiste en tratar la alternativa incorrecta (distractor) como si fuese la opción correcta y analizar sus parámetros desde esta teoría.

3. Índices estadísticos (correlación distractor-puntuación total en el test, media en el test de los sujetos que eligen un distractor,  2 ). Correlación biserial de cada alternativa con la puntuación total de un test con ítems de 5 alternativas. Alternativas ArbArb BrbBrb C* r b DrbDrb ErbErb Ítem n-.30-.15.70-.200

Información estadística: examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988). Información estadística: examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988).

En resumen, los principales criterios de bondad de una prueba y subsecuentemente de un ítem son dos: fiabilidad y validez.

Este procedimiento permite establecer la existencia de asociación entre dos variables cuando se condiciona a una tercera variable. El valor obtenido tiene un grado de libertad: ( gl = [columnas - 1] x [filas - 1]) Si el valor de Chi cuadrado calculado excede el valor teórico, se está en condiciones de poder rechazar la hipótesis de nulidad H0 (falta de asociación) en favor de H1 (asociación). Procedimiento de Mantel-Haenszel

TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón.

Presentaciones similares

Presentación del tema: "TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón.

Presentaciones similares

Presentación del tema: "TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback