Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de.

Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de Sevilla.

Recordando..., la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente:  teórica : supone la fundamentación teórica de la medida.  aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés. Recordando..., la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente:  teórica : supone la fundamentación teórica de la medida.  aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés.

 Evaluación del instrumento.  Análisis de la calidad de los ítems.  Estudio de la fiabilidad del instrumento  Estudio de la validez del instrumento.  Evaluación del instrumento.  Análisis de la calidad de los ítems.  Estudio de la fiabilidad del instrumento  Estudio de la validez del instrumento.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico. FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los items del mismo y estudiar la fiabilidad y validez del instrumento. FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los items del mismo y estudiar la fiabilidad y validez del instrumento.

Análisis de los ítems

El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés. El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés.

Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir. Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir.

- No hay un coeficiente único que reporte datos sobre la validez de los ítems o sistema de indicadores, sino que los datos para establecer juicios sobre su validez vienen dados por: 1. Los resultados de combinar distintas técnicas. 2. Por evidencias empíricas basadas en experiencias anteriores. 3. La utilidad que muestren para el modelo de medida propuesto

-De acuerdo con ello, es necesario dotar a los ítems o indicadores de distintas evidencias de validez, en concreto: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2.Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3.Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2.Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3.Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990).

-En general, los distintos tipos de validez, no son entidades distintas, sino que son el resultado de distintas aproximaciones al concepto de validez de los indicadores o ítems en nuestro caso. Los ítems o el sistema de indicadores es coherente con investigaciones previas Se corresponda con el modelo teórico referente Modelo de medida a partir del cual programar acciones en el campo aplicado, en nuestro caso, de la psicología. Útil para nuestros propósitos

Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. El juicio de expertos, como procedimiento, permite obtener evidencias de validez de contenido para cada uno de los items del instrumento y por tanto, del propio instrumento de medida globalmente. Para contrastar la calidad técnica de los items, Osterlind (1989), recomienda dos procedimientos. Juicios del grado de adecuación entre cada ítem y el subdominio u objetivo que pretende medir el ítem. Emparejamiento de items y objetivo/s o dominio/s, a juicio de los jueces. Mª del Rocío Navarro Vaca Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. El juicio de expertos, como procedimiento, permite obtener evidencias de validez de contenido para cada uno de los items del instrumento y por tanto, del propio instrumento de medida globalmente. Para contrastar la calidad técnica de los items, Osterlind (1989), recomienda dos procedimientos. Juicios del grado de adecuación entre cada ítem y el subdominio u objetivo que pretende medir el ítem. Emparejamiento de items y objetivo/s o dominio/s, a juicio de los jueces. Mª del Rocío Navarro Vaca

Osterlind (1989), propuso un índice que permite dar una valoración objetiva para ítem del test: Indice de Osterlind. Osterlind (1989), propuso un índice que permite dar una valoración objetiva para ítem del test: Indice de Osterlind. Definir el concepto de modo claro y preciso Pedir una valoración a expertos en el campo de aplicación que miden los indicadores

Juicios del grado de adecuación entre cada ítem y el subdominio u objetivo que pretende medir el ítem. Nombre__________________________________________________________________ Instrucciones: Primero lea el objetivo número 1. Después, lea el primer ítem en el cuadernillo del test. Considere cuidadosamente el grado de congruencia de este ítem con el dominio de habilidad. Evalúe la congruencia según las siguientes categorías: A = Alto grado de congruencia M = Grado medio de congruencia B = Bajo grado de congruencia Si Vd. Quiere hacer algún comentario sobre la congruencia de ese ítem regístrelo en el lugar reservado para ello. Después de que haya terminado con el primer ítem, proceda con el segundo ítem, e igualmente con todos los items siguientes, evaluándolos de igual forma. Objetivo Nº 1 Descripción del contenido sustantivo del objetivo n° 1. Evaluación Comentario Ítem Nº 1 _______________________ _______________________________________ Ítem Nº 3 _______________________ _______________________________________ Ítem Nº 7 _______________________ _______________________________________ Ítem Nº 9 _______________________ _______________________________________ Ítem Nº 10 _______________________ _______________________________________ Objetivo Nº 2 Descripción del contenido sustantivo del objetivo n° 2. Evaluación Comentario Ítem Nº 2 _______________________ _______________________________________ Ítem Nº 4 _______________________ _______________________________________ Ítem Nº 5 _______________________ _______________________________________ Ítem Nº 6 _______________________ _______________________________________ Ítem Nº 8 _______________________ _______________________________________ Ítem Nº 11 _______________________ _______________________________________

Información descriptiva: validez de los ítems: Emparejamiento de items y objetivo/s o dominio/s Rocio Navarro- Jose A Pérez-Gil

n Juicios razonables a través de ítems e indicadores. n Los juicios sobre la validez van a estar determinadas por: los resultados, evidencias empíricas, utilidad n Nos vamos a encontrar con 3 tipos diferentes de validez:

- Validez de contenido. (aquí se centra el emparejamiento de ítems y objetivos/ o dominio/s) - Validez de constructo. - Validez de criterio.

EL JUICIO DE EXPERTOS. n Consiste en preguntar a personas expertas en el dominio que miden los ítems, sobre su grado de adecuación a un criterio determinado y previamente establecido en los pasos anteriores. Para ello tenemos dos procedimientos. (Osterlind, 1989)

n Juicios del grado de adecuación entre cada ítem y el subdominio. n Emparejamiento de ítems y objetivos/s o dominio/s.

*Emparejamiento de ítems y objetivo/s o dominio/s. A juicio de los jueces. En este procedimiento se oculta a los jueces el emparejamiento objetivo-ítem para comprobar si, dicho emparejamiento, es tan evidente que una persona experta lo pueda descubrir. En este caso se puede utilizar la proporción de aciertos como índice de congruencia. A juicio de los jueces. En este procedimiento se oculta a los jueces el emparejamiento objetivo-ítem para comprobar si, dicho emparejamiento, es tan evidente que una persona experta lo pueda descubrir. En este caso se puede utilizar la proporción de aciertos como índice de congruencia.

- La taxonomía de Bloom. (explicada en el Tema 3.)

PROTOCOLO: -Test analizado: Teoría Clásica de los test del tema 2 de la asignatura de Psicometría, de la Facultad de Sevilla, Curso 2008/09. n El análisis inicial muestra los ítems solamente dentro de tres dominios: -Conocimiento: 1,6,7 -Comprensión: 2,4,8,10,11,12,13,14,17,18,19,20 -Aplicación: 3,5,9,15,16

PROTOCOLO: - Una vez realizado el análisis de items, hemos elaborado una propuesta inicial de taxonomia basada en los criterios de Bloom (dominios de aprendizaje), - Con posterioridad hemos convocado a 12 expertos en un aula de la Facultad de Psicología. - Una vez en el aula, se les explico la situación, dándoles todas las instrucciones acerca de la tarea a realizar y se les facilitó un documento formativo sobre los dominios, por si en algún momento del análisis les causara dudas o no pudieran recordar la información recibida previamente.

Marcas de emparejamiento entre items y dominio (taxonomia de Bloom) Experto: ___________________________________________________________________ Fecha: / / ÁREA de contenido: _______________________________________________________ Primero lea detenidamente toda la lista de los dominios que se os ha dado como nota informativa, esta nota informativa se os dejará a vuestro alcance por si a lo largo del test quedara duda alguna. Seguidamente y con la ayuda de la nota formativa si lo necesitáis, debéis de ir emparejando cada ítems a uno de los dominios expresados. DominioEmparejamiento de items del test (numero del ítems). 1 2 3 4 6 Items no emparejados: ________________________________________________________________________ From R.K. Hambleton "Validating the test scores" (p.225) in R.A. Berk (ed), A Guide to Criterion- Referenced Test Construction, 1984, Baltimore: The Johns Hopkins University Press

La nota informativa pasada a los jueces constaba de una tabla explicativa en la que cada dominio iba comentado y acompañado de pequeños ejemplos o palabras guías. En la tabla siguiente se presenta una descripción parcial de la misma: CONOCIMIENTO RECOGER INFORMACIÓN COMPRENSIÓN Confirmación Aplicación APLICACIÓN Hacer uso del Conocimiento ANÁLISIS (orden Superior) pidir, Desglosar SINTETIZAR (Orden superior) Reunir, Incorporar EVALUAR (Orden Superior) Juzgar el resultado Descripción: Las habilidades que se deben demostrar en este nivel son: Observación y recordación de información; conocimiento de fechas, eventos, lugares; conocimiento de las ideas principales; dominio de la materia Entender la información; captar el significado; trasladar el conocimiento a nuevos contextos; interpretar hechos; comparar, contrastar; ordenar, agrupar; inferir las causas predecir las consecuencias Hacer uso de la información; utilizar métodos, conceptos, teorías, en situaciones nuevas; solucionar problemas usando habilidades o conocimientos Encontrar patrones; organizar las partes; reconocer significados ocultos; identificar componentes Utilizar ideas viejas para crear otras nuevas; generalizar a partir de datos suministrados; relacionar conocimiento de áreas persas; predecir conclusiones derivadas Comparar y discriminar entre ideas; dar valor a la presentación de teorías; escoger basándose en argumentos razonados; verificar el valor de la evidencia; reconocer la subjetividad

CONOCIMIENTOCOMPRENSIÓNAPLICACIÓNANÁLISISSÍNTESISEVALUAR EXPERT 11,2,3,4,5,6,7,810.11.12.13.14.17.18.19.209.15.16 EXPERT 21,4,6,7,2,3,8,9,10,11,12,13,14,16,17,18,19,5,15,20 EXPERT 33,7,1,2,4,6,8,10,11,12,13,14,18,19,205,9,15,16,17 EXPERT 41,2,7,3,4,5,6,8,9,11,12,13,14,18,19,2010,15,16,17 EXPERT 51,3,6,72.4.10.11.12.13.14.18.19.205.8.9.15.16.17 EXPERT 65,6,7,1.2.4.8.10.11.12.13.14.17.18.19.3.9.15.16 20 EXPERT 71,4,6,72.5.8.10.11.12.13.14.16.17.18.19.203.9.15. EXPERT 81,3,4,6,72.5.8.10.11.12.13.14.17.18.19.209.15.16 EXPERT 91,2,3,4,5,6,78.11.12.13.14.17.18.19.209.10.15.16 EXPERT 101,6,72.3.4.5.8.9.10.11.12.13.14.17.18.19.2015.16 EXPERT 111,4,6,72.5.8.9.10.11.12.13.14.17.18.19.203.15.16 EXPERT 121,6,72.3.4.5.8.10.11.12.13.14.17.18.19.9.15.16.20 RESULTADOS: Tabla de asignación de items a dominios por los diferentes expertos

n Después del análisis de los expertos, los datos del primer juicio de los dominios que se realizó, es el siguiente: 1234567891011121314151617181920 CONOCIMIENTO8425425025841008 COMPRENSION167533504216843384100 1675100 76 APLICACIÓN 25 33 86716 1008425 16 ANALISIS SINTESIS EVALUAR. 8 Elecciones% CONOCIMIENTO5020.80 COMPRENSION14560.40 APLICACIÓN 4418.40 ANALISIS SINTESIS EVALUAR. 1 0.40 Total240100

n Después del análisis de los expertos, los datos del primer juicio de los dominios que se realizó, es el siguiente: 1234567891011121314151617181920 Expertos CONOCIMIENTO8425425025841008 COMPRENSION167533504216843384100 1675100 75 APLICACIÓN 25 86716 928425 16 EVALUAR8 P. Inicial CONOCIMIENTO X X X COMPRENSION X X X X X X X X X X XX APLICACIÓN XXXXX EVALUAR EXPERTOSP. iNICIAL Elecciones% % CONOCIMIENTO5020.80315.00 COMPRENSION14560.401260,00 APLICACIÓN 4418.40525.00 EVALUAR. 1 0.40-- Total24010020 Desacuerdo s Propuesta Inicial - Expertos Desacuerdo entre Expertos

Discusión: Los cambio más significativo en el Juicio de los expertos han sido en los primeros items del test con las preguntas más teóricas ya que algunos expertos las han calificado como “conocimiento” en vez de “comprensión” o “aplicación”. En la mayoría de las preguntas de expertos los dominios son de comprensión al igual que en la propuesta inicial. Y solo en uno de los expertos decir que el ítem 20 lo ha clasificado como análisis.

n n Mencionar por último como algo significativo que, u u el ítem 4 ha sido valorados por los expertos tanto en la dimensión de conocimiento como en la de comprensión, a partes iguales,(50%) u u el ítem 3 mientras en la valoración inicial fue clasificado dentro del dominio aplicación, en su mayoría los jueces lo aplican en el dominio de conocimiento. u u el ítem 5 mientras en la valoración inicial fue clasificado dentro del dominio aplicación, en su mayoría los jueces lo aplican en el dominio de comprensión.

CONCLUSIÓN: n Sacando los resultados de los expertos y comparándolos con la Propuesta Inicial, puede decirse que el grado de congruencia en este test es elevado, ya que la valoración de los jueves se asemeja en un alto grado a la valoración inicial.

Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los items, en cuanto a su validez de constructo suele recurirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los items, en cuanto a su validez de constructo suele recurirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables.

A titulo de ejemplo, podemos establecer que el concepto de Calidad Universitaria puede contemplarse desde un modelo de medida en el que Enseñanza, Investigación y Gestión son dimensiones (factores) más específicas del mismo y se asume que estos factores son causas efectivas de distintos indicadores o ítems, que son vistos como efectos de los mismos, es decir, los indicadores son manifestaciones empíricas que permiten medir dichas variables latentes.

Un modo alternativo al planteamiento anterior, supone establecer el concepto de Calidad Universitaria desde un modelo en el que Enseñanza, Investigación y Gestión son dimensiones específicas (factores) que afectan o modulan a dicho concepto general y se asume que estos factores, a su vez, son modulados por distintos indicadores o ítems, que son considerados como causas efectivas de los mismos, es decir, supone definir a los constructos como funciones lineales de los indicadores más una parte de error. Los factores pueden ser asumidos como variables compuestas por variables observadas, expresadas como combinaciones lineales de éstas (McCallum y Browne, 1993).

La calidad universitaria es función de indicadores observables que conforman el concepto “calidad”. Decimos que la calidad será mejor o peor en función de los valores de los indicadores, y no que es la calidad universitaria la que provoca cambios en los indicadores.

: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los items desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los items desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes.

Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los items que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación...). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco téorico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990). Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los items que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación...). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco téorico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990).

Índice de dificultad (ID) Proporción de sujetos que responden correctamente al ítem. Es un í ndice descriptivo de la distribución de respuestas y/o puntuaciones del ítem: donde: A: Número de sujetos que aciertan el ítem. N: Número de sujetos que han intentado resolver el ítem.

Índice de dificultad (con corrección del azar) Proporción de sujetos que responden correctamente al ítem corrigiendo las posibles aciertos por azar: donde: A: Número de sujetos que aciertan el ítem. E: Número de sujetos que han fallado el ítem. n: Número de alternativas de respuestas del ítem. N: Número de sujetos que han intentado resolver el ítem.

En general, un ítem en mejor cuanto mayor sea su varianza. Los mejores items son los que tienen un índice de dificultad de 0.5, porque optimizan la variabilidad del ítem. Por lo que respecta al test en su conjunto, para que discrimine adecuadamente entre los niveles de habilidad de todos los sujetos se han propuesto criterios para incluir proporcionalmente ítems, con diferentes valores en sus ID, en el tests. Osterlind recomienda, en tests de rendimiento, índices de dificultad que oscilen entre 0.4 y 0.8.

Yela (1980) recomienda la siguiente distribución de items en el test: Categorías Centíl en el constructo % Aproximado Índices de Dificultad Muy fáciles 0 - 10 10% 0.75 a 0.95 Fáciles 10 – 30 20% 0.55 a 0.74 Normales 30 - 70 40% 0.45 a 0.54 Difíciles 70 - 90 20% 0.25 a 0.44 Muy difíciles 90 – 100 10% 0.05 a 0.24 En este mismo sentido, Garret (1968) propone: Categorías Centíl en el constructo % Aproximado Índices de Dificultad. Fáciles 0 - 25 25% 0.75 a 0.95 Medios 25 - 75 50% 0.26 a 0.74 Difíciles 75 – 100 25% 0.05 a 0.25

Comportamiento del ID de un ítem por niveles de habilidad de los sujetos

Índice de discriminación José Luis Rodríguez Ruiz José Antonio Pérez-Gil

Definición n El índice de discriminación se define como la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en el test. (Muñiz, 1998, p.219) n Su utilidad está en diferenciar sujetos con puntuaciones altas y bajas en un test. n También puede estimarse sin basarse en la correlación ítem-test (Índice de discriminación clásico).

Índice de discriminación clásico (Croker y Algina, 1986) n No está basado en la correlación ítem-test. n Se trata de la diferencia entre la proporción de sujetos competentes que aciertan el ítem y la proporción de sujetos incompetentes que aciertan el ítem. n Se entiende por competentes los que puntúan, en el test, por encima de la mediana, e incompetentes los que puntúan por debajo.

n Adopta valores comprendidos entre 1 y –1. n La capacidad discriminativa del ítem aumenta a medida que d (índice de discriminación) se aleja de 0. n 1 y –1 = discriminación perfecta, pero hay que tener en cuenta la interpretación de los resultados. n Las puntuaciones negativas indican que los acertantes en el ítem obtienen peores puntuaciones en el resto de la prueba.

P c = Proporción de sujetos competentes en el test que aciertan el ítem. P i = Proporción de sujetos incompetentes en el test que aciertan el ítem.

n Ventajas e inconvenientes: u Con ítems de dificultad intermedia el ID es fácil de calcular e interpretar. u Se ve muy afectado con ítems con índices de dificultad extremos.

Tipos de correlaciones n El tipo de correlación varía según las características del ítem y del test. n Por lo general, se obtienen por la aplicación de los principios de la correlación de Pearson.

Índice de discriminación basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación producto-momento de Pearson (r xy )

n Cuatro tipos: u Correlación biserial- puntual. u Correlación biserial. u Correlación phi. u Correlación tetracórica.

Correlación biserial-puntual (ρ bp ) n Para estimar el índice de discriminación cuando los ítems son dicotómicos y el test una medida cuantitativa discreta. n Es necesario descontar el ítem cuyo índice de discriminación se pretende hallar. n Indica el grado de relación entre puntuar alto en el examen y acertar el ítem.

μ p = Medida en el test de los sujetos que aciertan el ítem. μ x = Media del test. σ x = Desviación típica del test. p= Proporción de sujetos que aciertan el ítem. q= (1-p)

n Si se posee la correlación ítem-test sin descontar los efectos del ítem, puede corregirse mediante la siguiente fórmula para obtener la correlación sin el valor del ítem:

ρ j(x-j) =correlación entre el ítem j y el test tras descontar el ítem (x-j). ρ jx = Medida en el test de los sujetos que aciertan el ítem. σ j = Desviación típica del ítem. σ x = Desviación típica del test.

n Ventajas e inconvenientes: u Selecciona ítems con alta consistencia interna, es decir, serán similares en diferentes muestras de la población. u Requiere que los ítems sean dicotómicos.

Correlación biserial (ρ b ) n Se utiliza cuando una de las variables a correlacionar no es dicotómica pero se dicotomiza y se asume que bajo esa dicotomización existe una variable continua que se distribuye según la curva normal. n Determina el grado en que lo medido por el test también lo mide el ítem. n Se trata de una estimación de la correlacion de Pearson, donde pueden obtenerse valores mayores que 1.

σ x = Desviación típica del test. μ x = Media del test. μ p = Media en el test de los sujetos que aciertan el ítem. p= Proporción de sujetos que aciertan el ítem. y= Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a p.

n Ventajas e inconvenientes: u Con índices de dificultad extrema está poco afectado por ID y la fluctuación muestral. u Exige que ambas distribuciones sean normales.

Relación entre ρ bp y ρ b p= Proporción de sujetos que aciertan el ítem q= (1-p).. y= Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a p.

Coeficiente phi (Φ) n Se usa si ambas variables (ítem y test) son dicotómicas. n Resulta ser una mera aplicación del coeficiente de correlación de Pearson.

a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un test dicotómico. Equivalencia entre  y  2 Test 01 Item 1ab 0cd

n Ventajas e inconvenientes: u Fácil de calcular. u Restringido cuando las proporciones de dicotomizaciones no son iguales.

Correlación tetracórica (ρ t ) n Es útil cuando ambas variables están distribuidas normalmente y están dicotomizadas.

a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un test dicotómico, asumiendo distribuciones normales. Test 01 Item 1ab 0cd

n Ventajas e inconvenientes: u Es el más utilizado para someter la matriz de correlaciones a un análisis factorial.

Ejemplo Examen tema 2, item5.- Para elaborar la teoría clásica de los test, Spearman asumió que: (Señale la opción correcta) 1.La puntuación empirica de un sujeto en un test (X) es suceptible de descomponer en dos partes: por un lado la puntuación verdadera (V) y por otro lado el error aleatorio de medida (e) 2.La puntuación verdadera de un sujeto en un test (V) es suceptible de descomponer en dos partes: por un lado la puntuación empírica (X) y por otro lado el error aleatorio de medida (e) 3.La puntuación empirica de un sujeto en un test (X) es suceptible de descomponer en dos partes: por un lado la puntuación verdadera (V) y por otro lado el error sistemático de medida (e)

Ejemplo Examen tema 2, item5

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 1 0.800 0.686 0.979 1+ 0.800 0.686 0.979 2 0.075 -0.103 -0.191 3 0.050 -0.229 -0.484 O 0.075 -0.752 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 2 0.825 0.686 1.000 1 0.000 0.000 0.000 2+ 0.825 0.686 1.000 3 0.075 0.005 0.009 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 3 0.825 0.744 1.000 1 0.038 -0.101 -0.235 2 0.025 0.028 0.074 3+ 0.825 0.744 1.000 O 0.112 -0.856 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 4 0.887 0.824 1.000 1+ 0.887 0.824 1.000 2 0.000 0.000 0.000 3 0.000 0.000 0.000 O 0.112 -0.842 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 5 0.900 0.867 1.000 1+ 0.900 0.867 1.000 2 0.000 0.000 0.000 3 0.000 0.000 0.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 6 0.800 0.625 0.892 1+ 0.800 0.625 0.892 2 0.013 -0.002 -0.007 3 0.075 0.048 0.089 O 0.112 -0.842 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 7 0.775 0.672 0.936 1 0.038 0.069 0.161 2 0.050 -0.112 -0.238 3+ 0.775 0.672 0.936 O 0.138 -0.797 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 8 0.863 0.801 1.000 1 0.000 0.000 0.000 2 0.038 -0.075 -0.174 3+ 0.863 0.801 1.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 9 0.900 0.867 1.000 1 0.000 0.000 0.000 2+ 0.900 0.867 1.000 3 0.000 0.000 0.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 10 0.687 0.622 0.815 1+ 0.687 0.622 0.815 2 0.100 0.065 0.111 3 0.038 -0.032 -0.076 O 0.175 -0.808 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 11 0.437 0.336 0.423 1 0.025 0.030 0.081 2+ 0.437 0.336 0.423 3 0.350 0.159 0.204 O 0.187 -0.650 -0.942 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 12 0.425 0.444 0.560 1 0.338 0.113 0.147 2+ 0.425 0.444 0.560 3 0.000 0.000 0.000 O 0.237 -0.656 -0.904 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 9 0.900 0.867 1.000 1 0.000 0.000 0.000 2+ 0.900 0.867 1.000 3 0.000 0.000 0.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 10 0.687 0.622 0.815 1+ 0.687 0.622 0.815 2 0.100 0.065 0.111 3 0.038 -0.032 -0.076 O 0.175 -0.808 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 11 0.437 0.336 0.423 1 0.025 0.030 0.081 2+ 0.437 0.336 0.423 3 0.350 0.159 0.204 O 0.187 -0.650 -0.942 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 12 0.425 0.444 0.560 1 0.338 0.113 0.147 2+ 0.425 0.444 0.560 3 0.000 0.000 0.000 O 0.237 -0.656 -0.904 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 13 0.550 0.498 0.626 1+ 0.550 0.498 0.626 2 0.187 0.183 0.265 3 0.013 -0.007 -0.025 O 0.250 -0.757 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 14 0.837 0.771 1.000 1 0.013 0.020 0.068 2+ 0.837 0.771 1.000 3 0.000 0.000 0.000 O 0.150 -0.824 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 15 0.600 0.511 0.647 1 0.013 0.098 0.338 2+ 0.600 0.511 0.647 3 0.125 0.084 0.136 O 0.262 -0.689 -0.930 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 16 0.788 0.708 0.998 1+ 0.788 0.708 0.998 2 0.038 0.008 0.019 3 0.000 0.000 0.000 O 0.175 -0.791 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 17 0.725 0.677 0.905 1+ 0.725 0.677 0.905 2 0.000 0.000 0.000 3 0.138 -0.108 -0.170 O 0.138 -0.778 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 18 0.875 0.782 1.000 1 0.000 0.000 0.000 2+ 0.875 0.782 1.000 3 0.000 0.000 0.000 O 0.125 -0.804 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 19 0.762 0.726 0.999 1+ 0.762 0.726 0.999 2 0.025 0.086 0.230 3 0.000 0.000 0.000 O 0.213 -0.814 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 20 0.637 0.581 0.745 1 0.000 0.000 0.000 2+ 0.637 0.581 0.745 3 0.125 0.123 0.197 O 0.237 -0.776 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

N PERSONS 80 N ITEMS 20 MEAN 14.90000 VARIANCE 31.84001 SD 5.64269 MINIMUM 0.00000 MAXIMUM 20.00000 ALPHA 0.94027 SEM 1.37907 MEAN P 0.74500 MEAN RPBI 0.67141 MEAN RBIS 0.87632 Rasultados del test: tema 2, Examaen

Índice de Validez El índice de validez de un items está referido a su correlación con un criterio externo al propio test. Como ocurre con el índice de discriminación su calculo dependerá de la naturaleza de las variables con las que se correlacione el ítem, es decir, las distintas fórmulas de correlación reseñadas en el índice de discriminación pueden ser utilizadas para el cálculo del índice de validez. Su cálculo es idéntico, si bien ahora no existe el problema adicional de que el ítem esté incluido en el criterio como podía ocurrir en el caso del índice de discriminación.

Índice de validez clásico. donde: Ps es la proporción de sujetos del grupo superior en el criterio que responden correctamente al ítem. y Pi es la proporción de sujetos del grupo inferior en el criterio que responden correctamente al ítem.

Índice de validez basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación producto-momento de Pearson (r xy )

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial puntual (r bp ) donde: µ p : Media en el criterio de los sujetos que han acertado el ítem µ y : Media del criterio  y : Desviación típica del criterio p: Proporción de sujetos que aciertan el ítem q: 1-p

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial (r b ) donde: µ p : Media en el criterio de los sujetos que han acertado el ítem µ y : Media del criterio  y : Desviación típica del criterio p: Proporción de sujetos que aciertan el ítem y´: Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a “p” (los valores se pueden encontrar en la tabla estadística correspondiente.

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Phi (  ) donde: a,b,c, y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un criterio dicotómico. Equivalencia entre  y  2 Criterio 01 Item 1ab 0cd

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Tetracórico (r t ) donde: a,b,c, y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem y un criterio (ambos dicotomizados). asumiendo distribuciones normales Criterio 01 Item 1ab 0cd

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión. Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión.

Haladyna (1994) propone tres vías para recoger información acerca del funcionamiento de los distractores: 1. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). 2. La tabla de frecuencias (Levine y Drasgow, 1982; Walner, 1989). José Álvaro Genero Picazo 3. Índices estadísticos (correlación distractor-puntuación total en el test, media en el test de los sujetos que eligen un distractor,  2 ). Inmaculada Moreno Vera Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-:

2. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). Este enfoque se lleva a cabo desde la TRI. Consiste en tratar la alternativa incorecta (distractor) como si fuese la opción correcta y analizar sus parámetros desde esta teoría. Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-:

CALIDAD DE LOS ÍTEMS. ANÁLISIS DE DIITRACTORES. TABLAS DE FRECUENCIAS. José Álvaro Genero Picazo

1- Análisis de la calidad métrica de los ítems 1- Análisis de distractores a. ¿Qué es un distractor? a. ¿Qué es un distractor? b. ¿En qué consiste el análisis de distractores? b. ¿En qué consiste el análisis de distractores? c. Condiciones para que un distractor sea eficaz. c. Condiciones para que un distractor sea eficaz. d. Tablas de frecuencias d. Tablas de frecuencias

1-Análisis de la calidad métrica de los ítems. - La evaluación de la calidad métrica de los ítems del test nos informa de las características estadísticas de éstos y de su contribución a la medición del dominio de interés. - La evaluación de la calidad métrica de los ítems del test nos informa de las características estadísticas de éstos y de su contribución a la medición del dominio de interés. - Con este análisis se va a disponer de información relevante para decidir que ítems se van a utilizar para medir el constructo y que ítems se deben desechar por su baja calidad técnica. - Con este análisis se va a disponer de información relevante para decidir que ítems se van a utilizar para medir el constructo y que ítems se deben desechar por su baja calidad técnica. - Una parte importante de este análisis es el análisis de los distractores. - Una parte importante de este análisis es el análisis de los distractores.

2-Análisis de distractores. a)¿Qué es un distractor? Se denominan distractores a las distintas alternativas falsas o posibilidades de respuestas incorrectas que tiene un ítem en un test concreto. Se denominan distractores a las distintas alternativas falsas o posibilidades de respuestas incorrectas que tiene un ítem en un test concreto. Ej- Las cantidades que pueden sumarse y asignarse números hasta una transformación de similitud son: a.intensivas a.intensivas b.extensivas b.extensivas c.naturales c.naturales

2-Análisis de distractores. b) ¿En qué consiste el análisis de distractores? - En el análisis de distractores se identifica aquellos distractores defectuosos que una vez eliminados y reemplazados por otros más adecuados incidirán positivamente en la calidad del ítem, mejorando la discriminación del ítem o alejando la dificultad de valores extremos. - En el análisis de distractores se identifica aquellos distractores defectuosos que una vez eliminados y reemplazados por otros más adecuados incidirán positivamente en la calidad del ítem, mejorando la discriminación del ítem o alejando la dificultad de valores extremos. - El objetivo es atraer la atención de los sujetos con un nivel medio o bajo como para responder correctamente al ítem. - El objetivo es atraer la atención de los sujetos con un nivel medio o bajo como para responder correctamente al ítem.

2-Análisis de distractores c) Condiciones para que un distractor sea eficaz 1.Son elegidas por un mínimo de sujetos. 1.Son elegidas por un mínimo de sujetos. 2.Son aproximadamente igual de atractivas para los sujetos. 2.Son aproximadamente igual de atractivas para los sujetos. Ambos se cumplen si los porcentajes de respuestas estuviesen por encima de un 10% y con diferencias mínimas entre ellos. Si esto no ocurre, disminuye la fiabilidad y la validez del test al aumentar el acierto por azar. Ambos se cumplen si los porcentajes de respuestas estuviesen por encima de un 10% y con diferencias mínimas entre ellos. Si esto no ocurre, disminuye la fiabilidad y la validez del test al aumentar el acierto por azar.

2-Análisis de distractores 3.Que el rendimiento medio en el test de los sujetos en cada distractor sea inferior al de los sujetos que han elegido la respuesta correcta y a la media del test en general de todos los sujetos. 3.Que el rendimiento medio en el test de los sujetos en cada distractor sea inferior al de los sujetos que han elegido la respuesta correcta y a la media del test en general de todos los sujetos. Se calculan las medias en la puntuación del test para cada distractor y se comprueba que la media de la alternativa correcta es superior a la media de todos los sujetos y esta, a su vez, es mayor que los promedios de los distractores. Se calculan las medias en la puntuación del test para cada distractor y se comprueba que la media de la alternativa correcta es superior a la media de todos los sujetos y esta, a su vez, es mayor que los promedios de los distractores.

2-Análisis de distractores 4.Que discriminen entre los sujetos de media, baja y alta puntuación en el test pero en el sentido contrario a como lo hace la alternativa correcta. 4.Que discriminen entre los sujetos de media, baja y alta puntuación en el test pero en el sentido contrario a como lo hace la alternativa correcta. Para cada alternativa correcta se calcula un índice de discriminación o un coeficiente de discriminación con respecto a la puntuación en el test. Un buen distractor es aquel que presenta un poder discriminativo alto, aunque más bajo que el de la alternativa correcta y preferiblemente con un valor negativo. Para cada alternativa correcta se calcula un índice de discriminación o un coeficiente de discriminación con respecto a la puntuación en el test. Un buen distractor es aquel que presenta un poder discriminativo alto, aunque más bajo que el de la alternativa correcta y preferiblemente con un valor negativo.

2-Análisis de distractores d) Tablas de frecuencias - Son ordenaciones en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. - Son ordenaciones en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. - Simplifica los valores cuantitativos o cuasi-cualitativos de una investigación para facilitar la interpretación de los datos obtenidos. - Simplifica los valores cuantitativos o cuasi-cualitativos de una investigación para facilitar la interpretación de los datos obtenidos. - Nos informan del número de respuestas del número superior (27%) y del grupo inferior (27%), que han seleccionado cada alternativa de respuesta. - Nos informan del número de respuestas del número superior (27%) y del grupo inferior (27%), que han seleccionado cada alternativa de respuesta. - Pueden aparecer el índice de discriminación de cada alternativa, la media de las respuestas a cada alternativa y la proporción de sujetos que elige cada alternativa. - Pueden aparecer el índice de discriminación de cada alternativa, la media de las respuestas a cada alternativa y la proporción de sujetos que elige cada alternativa.

2-Análisis de distractores ABCDE Nivel desuperior6511643228 aptitudinferior1530206867 P0,200,100,210,250,24 Media11,18,313,28,97,8 D0,25-0,090,22-0,18-0,195

2-Análisis de distractores En la tabla… - B no es un buen distractor ya que no es elegido por un número mínimo de sujetos. - C tampoco, debido a que la media es superior a la de A y porque el índice de discriminación es positivo. - D y C son buenos distractores

Bibliografía n María Isabel Barbero García; Enrique Vila Abad;Juan Carlos Suárez Falcón(2006) “Psicometría” n J. Muñiz; A.M.Fidalgo; E.G.Cueto;R.Martínez;R.Moreno (2005) “Análisis de los ìtems n J.Muñiz (1998) “Teoría clásica de los test” n María Isabel barbero García (1999) “Psicometría II” n R.Martínez Arias (1995) “Psicometría: teoría de los tests psicológicos y educativos.

ANÁLISIS DE DISTRACTORES: ÍNDICE DE HOMOGENEIDAD: Inmaculada Moreno Vera. Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-:

ANÁLISIS DE LA CALIDAD DE LOS ÍTEMS: -El análisis de la calidad métrica del test y de cada uno de los ítems que la conforman es una fase muy importante en la construcción de un instrumento de medida. -Su evaluación nos informa de las características estadísticas de estos y de su contribución a la medición del constructo o dominio de interés. -Así pues, se decide que ítem debe ser rechazado por su baja calidad técnica y cuál no. -De este modo se mejora la construcción del test y se maximiza su fiabilidad y validez.

ANÁLISIS DE LA CALIDAD DE LOS ÍTEMS: -No basta con la evaluación global de una prueba. -Es necesario analizar la calidad individual de los elementos que la componen (análisis de los ítems) -Ello implica la obtención de información descriptiva y estadística.

INFORMACIÓN DESCRIPTIVA: -Hace referencia a la calidad técnica de los elementos. -Osterling (1989) recomienda un procedimiento fundamental: “el juicio de expertos”.

INFORMACIÓN ESTADÍSTICA: -Supone la estimación de parámetros para cada ítem, el análisis de distractores o alternativas incorrectas de respuestas (ítems de elección múltiple) y el examen del posible funcionamiento diferencial de los ítems en grupos de interés.

INFORMACIÓN ESTADÍSTICA: +Parámetros para cada ítem: dificultad, discriminación, pseudoadivinación, homogeneidad, información y validez. +Análisis de distractores: ¿Qué distractores funcionan en la dirección esperada?, revisión, sustitución o supresión.

ANÁLISIS DE DISTRACTORES: -Los distractores o alternativas incorrectas influyen en la calidad del ítem. -¿Qué es un ítem distractor? +Las alternativas incorrectas de respuesta dentro de una misma cuestión que distraen a quien realiza el test. +Deben ser atractivos y lógicos. +Todos deben tener la misma longitud. -Y el análisis de distractores ¿ Por qué y para qué se utiliza? +Nos permite conocer su funcionamiento y si los distractores utilizados son correctos (en cuanto a su uso y siguen el camino adecuado )o si, en cambio, deben ser rechazados. +De este modo se puede llegar a realizar una buena construcción del test y se maximizan la fiabilidad y validez del mismo. +De este modo se puede llegar a realizar una buena construcción del test y se maximizan la fiabilidad y validez del mismo.

ANÁLISIS DE DISTRACTORES: -Si un distractor es seleccionado con frecuencia: +Ítem mal redactado o confuso. +Problema generalizado de comprensión. -Sin un distractor no es seleccionado muy frecuentemente o no es seleccionado: +Disminuye la fiabilidad y validez del test pues aumenta el acierto por azar. +No cumple su función.

ANÁLISIS DE DISTRACTORES: -¿Cómo se analizan? Haladyna (1994) propone tres vías para su análisis: +La tabla de frecuencias (Levine y Drasgow,1982; Walner, 1989). +La curva característica del distractor (Thissen, Steingberg y Fitzpatrick, 1989). +Índices estadísticos.

EL ÍNDICE DE HOMOGENEIDAD: -Nos informa del grado en que el ítem está midiendo lo mismo que la globalidad del test, es decir, el grado en que es consistente, homogéneo con el total de la prueba. -Se define como: +La correlación existente entre las puntuaciones obtenidas por los sujetos en un determinado ítem y la puntuación total de esos mismos sujetos en el test o prueba completa (correlación ítem-test). +La correlación existente entre las puntuaciones obtenidas por los sujetos en un determinado ítem y la puntuación total de esos mismos sujetos en el test o prueba completa (correlación ítem-test).

ÍNDICE DE HOMOGENEIDAD: +Mide el grado de consistencia interna que presentan los elementos internos de un test. +La consistencia interna se refiere al hecho de que cada uno de los ítems mida una parte proporcional de lo que mide la prueba en su conjunto. +Es un correlación, está entre -1 y 1. +En cualquier tipo de test.

OBJETIVOS DEL ÍNDICE DE HOMOGENEIDAD: -Retener o no cada uno de los ítems distractores ( 0 alternativas incorrectas). -Si no se retienen: +Re-escribir, re-diseñar o corregir la redacción de los ítems distractores cuyos parámetros estadísticos no se alejan mucho de los parámetros establecidos. +Re-escribir, re-diseñar o corregir la redacción de los ítems distractores cuyos parámetros estadísticos no se alejan mucho de los parámetros establecidos. + Re-escribir, re-diseñar o corregir la redacción de cada una de las respuestas que se propusieron en el instrumento de aquellas respuestas que no se alejen mucho de los parámetros establecidos. + Re-escribir, re-diseñar o corregir la redacción de cada una de las respuestas que se propusieron en el instrumento de aquellas respuestas que no se alejen mucho de los parámetros establecidos.

CÁLCULO: -A través del coeficiente de correlación biserial puntual(Rbp): Se utiliza para conocer si las personas “adecuadas” son las que obtienen las respuestas correctas. Índice usado para expresar una correlación entre una variable dicotómica(ítem: Rs correcta o incorrecta del test) y una variable continua(puntuación total del test). Índice usado para expresar una correlación entre una variable dicotómica(ítem: Rs correcta o incorrecta del test) y una variable continua(puntuación total del test). -A través del coeficiente de correlación biserial (Rb): Determina el grado en que las competencias que mide el test también las mide el reactivo. Índice usado para expresar la correlación entre una variable dicotomizada (de origen continua) y otra continua.

CÁLCULO: +Fórmulas:

+Donde: μ p : media en el test de los sujetos que aciertan el ítem. μ x : media del test. σ x : desviación típica del test. p: proporción de sujetos que aciertan el ítem. q : (1 – p). y: ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a p.

CÁLCULO: +Indican la correlación entre acertar y la puntuación del resto del examen: -si el ítem es adecuado debe ser positivo en la elección correcta, a la vez que debe ser negativo o menor a 0.20 en las elecciones incorrectas (distractores). -si el distractor presenta una correlación biserial o una correlación biserial puntual 0.20, el distractor deberá ser revisado, re-diseñado o eliminado del test.

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 1 0.800 0.686 0.979 1+ 0.800 0.686 0.979 2 0.075 -0.103 -0.191 3 0.050 -0.229 -0.484 O 0.075 -0.752 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 2 0.825 0.686 1.000 1 0.000 0.000 0.000 2+ 0.825 0.686 1.000 3 0.075 0.005 0.009 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 3 0.825 0.744 1.000 1 0.038 -0.101 -0.235 2 0.025 0.028 0.074 3+ 0.825 0.744 1.000 O 0.112 -0.856 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 4 0.887 0.824 1.000 1+ 0.887 0.824 1.000 2 0.000 0.000 0.000 3 0.000 0.000 0.000 O 0.112 -0.842 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 CÁLCULO: Examen tema 2, todos los items, ejemplo de los distractores DATOS:

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 5 0.900 0.867 1.000 1+ 0.900 0.867 1.000 2 0.000 0.000 0.000 3 0.000 0.000 0.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 6 0.800 0.625 0.892 1+ 0.800 0.625 0.892 2 0.013 -0.002 -0.007 3 0.075 0.048 0.089 O 0.112 -0.842 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 7 0.775 0.672 0.936 1 0.038 0.069 0.161 2 0.050 -0.112 -0.238 3+ 0.775 0.672 0.936 O 0.138 -0.797 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 8 0.863 0.801 1.000 1 0.000 0.000 0.000 2 0.038 -0.075 -0.174 3+ 0.863 0.801 1.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 9 0.900 0.867 1.000 1 0.000 0.000 0.000 2+ 0.900 0.867 1.000 3 0.000 0.000 0.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 10 0.687 0.622 0.815 1+ 0.687 0.622 0.815 2 0.100 0.065 0.111 3 0.038 -0.032 -0.076 O 0.175 -0.808 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 11 0.437 0.336 0.423 1 0.025 0.030 0.081 2+ 0.437 0.336 0.423 3 0.350 0.159 0.204 O 0.187 -0.650 -0.942 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 12 0.425 0.444 0.560 1 0.338 0.113 0.147 2+ 0.425 0.444 0.560 3 0.000 0.000 0.000 O 0.237 -0.656 -0.904 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 9 0.900 0.867 1.000 1 0.000 0.000 0.000 2+ 0.900 0.867 1.000 3 0.000 0.000 0.000 O 0.100 -0.880 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 10 0.687 0.622 0.815 1+ 0.687 0.622 0.815 2 0.100 0.065 0.111 3 0.038 -0.032 -0.076 O 0.175 -0.808 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 11 0.437 0.336 0.423 1 0.025 0.030 0.081 2+ 0.437 0.336 0.423 3 0.350 0.159 0.204 O 0.187 -0.650 -0.942 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 12 0.425 0.444 0.560 1 0.338 0.113 0.147 2+ 0.425 0.444 0.560 3 0.000 0.000 0.000 O 0.237 -0.656 -0.904 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 13 0.550 0.498 0.626 1+ 0.550 0.498 0.626 2 0.187 0.183 0.265 3 0.013 -0.007 -0.025 O 0.250 -0.757 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 14 0.837 0.771 1.000 1 0.013 0.020 0.068 2+ 0.837 0.771 1.000 3 0.000 0.000 0.000 O 0.150 -0.824 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 15 0.600 0.511 0.647 1 0.013 0.098 0.338 2+ 0.600 0.511 0.647 3 0.125 0.084 0.136 O 0.262 -0.689 -0.930 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 16 0.788 0.708 0.998 1+ 0.788 0.708 0.998 2 0.038 0.008 0.019 3 0.000 0.000 0.000 O 0.175 -0.791 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

ITEM PROP RPBI RBIS RES PROP RPBI RBIS 17 0.725 0.677 0.905 1+ 0.725 0.677 0.905 2 0.000 0.000 0.000 3 0.138 -0.108 -0.170 O 0.138 -0.778 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 18 0.875 0.782 1.000 1 0.000 0.000 0.000 2+ 0.875 0.782 1.000 3 0.000 0.000 0.000 O 0.125 -0.804 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 19 0.762 0.726 0.999 1+ 0.762 0.726 0.999 2 0.025 0.086 0.230 3 0.000 0.000 0.000 O 0.213 -0.814 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 ITEM PROP RPBI RBIS RES PROP RPBI RBIS 20 0.637 0.581 0.745 1 0.000 0.000 0.000 2+ 0.637 0.581 0.745 3 0.125 0.123 0.197 O 0.237 -0.776 -1.000 U 0.000 0.000 0.000 I 0.000 0.000 0.000 Ejemplo Examen tema 2, todos los items

CÁLCULO: ejemplo de los distractores del examen 2. n Ítems: Atendiendo a los valores de la rpbi de los distractores, todos los ítems del test se ajustan a los valores recomendados para considerarlos correctos. n Si analizamos los distractores desde sus valores de rbis (mas exigente que el anterior) obtnemos los siguiente: -1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 17, 18 y 20: al tener un coeficiente de correlación tanto biserial puntual como biserial, menor a 0.20, incluso muchos de ellos un valor negativo podemos afirmar tras su análisis que estos distractores son correctos. -En los ítems 11, 13 y 19, un distractor supera el valor de 0.20 en el índice biserial (0.204) unas décimas por lo que este distractor debería re-escribirse, re-diseñarse o corregirse. -En el ítem 15, el valor del coeficiente de correlación biserial de un distractor, supera el valor de 0.3 (0.338) por lo tanto debería ser re-escrito, re-diseñado o ser corregido o bien eliminado según se considere más correcto.

Media en el Test de los sujetos que han elegido cada alternativa de respuesta en un determinado ítem n, de un test con N ítems de 5 alternativas. Ejemplo: Valor de la Media del test en cada una de las 5 Alternativas del ítem 14 en un test de 20 ítems. A Media B Media C* Media D Media E Media Ítem n981257 Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: 3. Índices estadísticos (media en el test de los sujetos que eligen un distractor).

3. Índices estadísticos (  2 ). Contraste de frecuencias: Se calcula el valor de estadístico  2 con base en la frecuencias observadas: Ejemplo: Valor de la frecuencia observada en cada una de las 5 Alternativas del ítem 14 en un test de 20 ítems. ABC*DE Ítem n208090100 Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-:

Sesgo o Funcionamiento Diferencial de los ítems (FDI): examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). Ernesto Buiza Candelario El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988). Sesgo o Funcionamiento Diferencial de los ítems (FDI): examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). Ernesto Buiza Candelario El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988).

En resumen, los principales criterios de bondad de una prueba y subsecuentemente de un ítem son dos: fiabilidad y validez.

Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de.

Presentaciones similares

Presentación del tema: "Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de.

Presentaciones similares

Presentación del tema: "Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback