TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón.

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

TEMA 6: CONTRASTES NO PARAMÉTRICOS
Muestra: Recolección de Datos: Análisis de Datos:
Tema 2: Métodos de ajuste
Inferencia Estadística
Tipos de investigación
Análisis de los Datos Cuantitativos
Proceso de investigación : el ciclo de investigación Ver: uthentic_inquiry2.pdf Y
Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de.
Máster en Planificación Estratégica en Publicidad y RRPP TRABAJO FINAL DE MÁSTER TFM Estructura.
Patricia Álvarez Zazueta Materia: Generar la Comunicación Bloque I Propósito: El alumno distinguirá los diferentes tipos de concepto de documento técnico.
La Investigación Científica
Estudio técnico del instrumento
Yulieth A. Sánchez B. C.I: Exp: to de Mercadeo.
Un criterio para detectar outliers. Otro criterio para detectar errores groseros (outliers)
Paola Andrea Penagos Verónica González J Métodos de Investigación III UdeA – Agosto de 2011 PRUEBA DE FRIEDMAN.
Tema 5 Test informatizados (TIs). Historia… Años 40: aplican los desarrollos analógicos a la puntuación automatizada del Strong Vocational Interest Blank(SVIB)
Clase 4 Marco Teórico Metodología Desarrollo. Marco Teórico En el Marco Teórico se deberá describir el marco elegido sobre el que sustenta la investigación.
Indicadores de Sustentabilidad Ambiental. ¿QUÉ ES UN INDICADOR?  Es una medida que nos permite ir observando el parámetro de avance en el cumplimiento.
La Unidimensionalidad 2ª Presentación borrador, Realizado: Carmen Calatayud Fernández (Enviada el día 29/04/08)
VARIABLE ALEATORIA Y DISTRIBUCIÓN NORMAL
Danny Rafael Amaya Cotes Marcos Elías López Guerra.
TEORÍA DEL MUESTREO El muestreo implica seleccionar a un grupo de personas, acontecimientos u otros elementos que usamos para dirigir un estudio. Se espera.
Seminario de Tesis/ina
PROGRAMA DE FORTALECIMIENTO INSTITUCIONAL LOCAL ESCUELAS DE LIDERAZGO Y/O GOBIERNO NIVEL 5 - MÓDULO 3 MARCO LÓGICO.
METODOLOGÍA CUALITATIVA Licenciatura en Comunicación Social, U. del Pacífico Cuarta semana de clases El proceso de construcción de un marco teórico Prof.
Experimentos con un solo factor: anÁlIsis de varianza
TEORIA CLASICA y TEORIA DE RESPUESTA AL ITEM ( TRI )
1 Diciembre 2015, Bogotá, Colombia Congreso Latinoamericano de Evaluación Ampliando la mirada de Calidad Desarrollo personal y social: Desafíos técnicos.
“ENLACE UNET - HOSPITAL CENTRAL A TRAVÉS DEL ÁREA DE ESTADÍSTICA” San Cristóbal 27 de Mayo del 2005.
Cristina. Derivada del término en latín variabilis, variable es una palabra que representa a aquello que varía o que está.
Relación entre filosofía y ciencia
Prueba de Friedman Vanessa Restrepo Viviana Sanchez Luisa Arroyave
Teoría de la Generalizabilidad
Diagramas de control CONSIDERACIONES BÁSICAS. DIAGRAMAS DE CONTROL  El Control Estadístico de Proceso (Statistical Process Control SPC) es la herramienta.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
Qué es una variable Una variable es cualquier entidad que puede tomar diferentes valores. Es decir, una variable es una característica de un individuo.
Estimación estadística
M. Teresa Anguera Universidad de Barcelona Máster Universitario en PSICOLOGIA GENERAL SANITARIA Universidad de Sevilla Curso LOS FUNDAMENTOS.
Concepto La Criminología trabaja con comunicaciones orales o escritas (discursos, entrevistas, artículos de periódicos, emisiones, etc.) Para que el investigador.
HIPOTESIS DE INVESTIGACIÓN
ESTUDIOS TRANSVERSALES CORRELACIONALES LINDA BARRAZA FABIAN BELEÑO WILLIAM MORENO DANIELA NÚÑEZ JOHANN PERRET GENTIL DIEGO VASQUEZ.
Tarea # 2. La distribución uniforme es la que corresponde a una variable que toma todos sus valores, con igual probabilidad; el espacio muestral debe.
Característica del conocimiento científico: Concepto de organismo Semana
PSICOLOGÍA EN LA ODONTOLOGÍA Producto Integrador de Aprendizaje Aplicación de las tecnologías de la Información Gabriela Martínez Chapa
Desarrollo organizacional
Carlos A. Andújar Rojas, Ph.D. 1. Razonamiento estadístico  Es el proceso por el que se utiliza la lógica para tratar de describir, explicar, predecir.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
CAPITULO II Marco Teórico
ANÁLISIS DE VARIANZA DE UN FACTOR ANOVA I Dr. en Ed. Carlos Saúl Juárez Lugo Centro Universitario UAEM Ecatepec 2015.
PRINCIPIOS LOGICOS.
OBSERVACIÓN. 1. Definición La observación es un instrumento de recolección de datos de carácter sistemático, confiable y válido, tiene el propósito de.
JULIETH MARCELA CORTES UNIVERSIDAD COOPERATIVA DE COLOMBIA
Análisis de datos y metodología II Equipo de tutores 2015: -Diego Henríquez -Ivan Guailla -Denise Leiva -Patricio Mena -Leonardo Portillo -Cristian Ramírez.
NATURALEZA DE LA INVESTIGACIÓN
Factores determinantes de los resultados de la evaluación EGEL- Medicina en los egresados de la UPAEP Resultados EGEL-Medicina UPAEP 2014.
Actividad 2 El Protocolo de Investigación: planteamiento y justificación del problema.
Curso: Metodología de la Investigación – Semana 6.
Marco Teórico Referencial
La Encuesta y análisis documental
APLICACIONES TAI EN TELEFORMACIÓN. ¿Qué es la teleformación? La Teleformación o el e-learning permite realizar acciones formativas a través de Internet.
Proceso de Evaluación del CAUI Objetivo General Diseñar un instrumento que permita la evaluación de las Competencias para el Acceso y Uso de la.
Taller introducción a los conceptos básicos de Estadística PRIMERA PARTE 2016 Propósito: Introducir algunos conceptos básicos de Estadística por medio.
Métodos Cuantitativos de Análisis de Datos I. Medidas de Variación.
Psicología en las ciencias sociales Por: Ivonne Muniz González.
1 INTRODUCCIÓN AL DISEÑO Y EVALUACIÓN DE PROGRAMAS SOCIALES, EDUCATIVOS Y DE LA SALUD Tema 2. Bases metodológicas Salvador Chacón Moscoso.
¿Cómo se califican las pruebas de saberes?
ELABORACIÓN Y DISEÑO DE UNA ENCUESTA
1 Tema 2. Bases metodológicas TALLER: DISEÑO Y EVALUACIÓN DE PROGRAMAS XIV CONGRESO DE METODOLOGÍA DE LAS CIENCIAS SOCIALES Y DE LA SALUD PALMA, 21 DE.
CÓMO FORMULAR OBJETIVOS EN INVESTIGACIÓN
Transcripción de la presentación:

TEMA 11 Análisis de la calidad métrica de los ítems Licenciatura de Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Salvador Chacón Moscoso Susana Sanduvete Chaves Dpto. de Psicología Experimental. Universidad de Sevilla.

Recordando..., la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente:  teórica : supone la fundamentación teórica de la medida.  aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés. Recordando..., la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente:  teórica : supone la fundamentación teórica de la medida.  aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés.

Dentro de los parámetros de los ítems se suele estimar la dificultad, discriminación, pseudoadivinación, homogeneidad, información, fiabilidad y validez, si bien según sea el marco teórico que se adopte teoría clásica de los tests, teoría de respuesta al ítem o medición referida al criterio- algunos de ellos serán definidos e interpretados/valorados de distinto modo y se estimará un determinado número de estos parámetros, no todos. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992 o Santisteban, 1990).

 Evaluación del instrumento.  Análisis de la calidad de los ítems.  Estudio de la fiabilidad del instrumento  Estudio de la validez del instrumento.  Evaluación del instrumento.  Análisis de la calidad de los ítems.  Estudio de la fiabilidad del instrumento  Estudio de la validez del instrumento.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico. FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los ítems del mismo y estudiar la fiabilidad y validez del instrumento. FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los ítems del mismo y estudiar la fiabilidad y validez del instrumento.

Análisis de los ítems

El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés. El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés.

Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir. Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir.

- No hay un coeficiente único que reporte datos sobre la validez de los ítems o sistema de indicadores, sino que los datos para establecer juicios sobre su validez vienen dados por: 1. Los resultados de combinar distintas técnicas. 2. Por evidencias empíricas basadas en experiencias anteriores. 3. La utilidad que muestren para el modelo de medida propuesto

-De acuerdo con ello, es necesario dotar a los ítems o indicadores de distintas evidencias de validez, en concreto: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2.Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3.Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 1.Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2.Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3.Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990).

-En general, los distintos tipos de validez, no son entidades distintas, sino que son el resultado de distintas aproximaciones al concepto de validez de los indicadores o ítems en nuestro caso. Los ítems o el sistema de indicadores es coherente con investigaciones previas Se corresponda con el modelo teórico referente Modelo de medida a partir del cual programar acciones en el campo aplicado, en nuestro caso, de la psicología. Útil para nuestros propósitos

Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los ítems, en cuanto a su validez de constructo suele recurrirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables. Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los ítems, en cuanto a su validez de constructo suele recurrirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables.

A titulo de ejemplo, podemos establecer que el concepto de Calidad Universitaria puede contemplarse desde un modelo de medida en el que Enseñanza, Investigación y Gestión son dimensiones (factores) más específicas del mismo y se asume que estos factores son causas efectivas de distintos indicadores o ítems, que son vistos como efectos de los mismos, es decir, los indicadores son manifestaciones empíricas que permiten medir dichas variables latentes.

Un modo alternativo al planteamiento anterior, supone establecer el concepto de Calidad Universitaria desde un modelo en el que Enseñanza, Investigación y Gestión son dimensiones específicas (factores) que afectan o modulan a dicho concepto general y se asume que estos factores, a su vez, son modulados por distintos indicadores o ítems, que son considerados como causas efectivas de los mismos, es decir, supone definir a los constructos como funciones lineales de los indicadores más una parte de error. Los factores pueden ser asumidos como variables compuestas por variables observadas, expresadas como combinaciones lineales de éstas (McCallum y Browne, 1993).

La calidad universitaria es función de indicadores observables que conforman el concepto “calidad”. Decimos que la calidad será mejor o peor en función de los valores de los indicadores, y no que es la calidad universitaria la que provoca cambios en los indicadores.

: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los ítems desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes. : Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los ítems desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes.

Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los ítems que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación...). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco teórico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990). Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los ítems que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación...). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco teórico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990).

Índice de dificultad (ID) Proporción de sujetos que responden correctamente al ítem. Es un í ndice descriptivo de la distribución de respuestas y/o puntuaciones del ítem: donde: A: Número de sujetos que aciertan el ítem. N: Número de sujetos que han intentado resolver el ítem.

Índice de dificultad (con corrección del azar) Proporción de sujetos que responden correctamente al ítem corrigiendo las posibles aciertos por azar: donde: A: Número de sujetos que aciertan el ítem. E: Número de sujetos que han fallado el ítem. n: Número de alternativas de respuestas del ítem. N: Número de sujetos que han intentado resolver el ítem.

En general, un ítem en mejor cuanto mayor sea su varianza. Los mejores ítems son los que tienen un índice de dificultad de 0.5, porque optimizan la variabilidad del ítem. Por lo que respecta al test en su conjunto, para que discrimine adecuadamente entre los niveles de habilidad de todos los sujetos se han propuesto criterios para incluir proporcionalmente ítems, con diferentes valores en sus ID, en el tests. Osterlind recomienda, en tests de rendimiento, índices de dificultad que oscilen entre 0.4 y 0.8.

Yela (1980) recomienda la siguiente distribución de ítems en el test: Categorías Centíl en el constructo % Aproximado Índices de Dificultad Muy fáciles % 0.75 a 0.95 Fáciles 10 – 30 20% 0.55 a 0.74 Normales % 0.45 a 0.54 Difíciles % 0.25 a 0.44 Muy difíciles 90 – % 0.05 a 0.24 En este mismo sentido, Garret (1968) propone: Categorías Centíl en el constructo % Aproximado Índices de Dificultad. Fáciles % 0.75 a 0.95 Medios % 0.26 a 0.74 Difíciles 75 – % 0.05 a 0.25

Comportamiento del ID de un ítem por niveles de habilidad de los sujetos

Índice de discriminación (r ix ) Es un índice que relaciona el ítem con el test y se define como “la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en el test” (Muñiz, 1998, p.219) Su mayor utilidad es diferenciar a los sujetos con puntuaciones altas en el test de aquellos que las tienen bajas. En general, se obtiene aplicando los principios de la correlación de Pearson, adaptando el cálculo a las características o modos en que los ítems vienen medidos. En la literatura psicométrica podemos encontrar diferentes formas de calcular este índice

Índice de discriminación clásico (Croker y Algina, 1986). donde: Ps es la proporción de sujetos del grupo superior en el criterio que responden correctamente al ítem. y Pi es la proporción de sujetos del grupo inferior que responden correctamente al ítem.

Índice de discriminación basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación producto-momento de Pearson (r xy )

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial puntual (r bp ) donde: µ p : Media en el test de los sujetos que han acertado el ítem µ x : Media del test  x : Desviación típica del test p: Proporción de sujetos que aciertan el ítem q: 1-p

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial (r b ) donde: µ p : Media en el test de los sujetos que han acertado el ítem µ x : Media del test  x : Desviación típica del test p: Proporción de sujetos que aciertan el ítem y: Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a “p” (los valores se pueden encontrar en la tabla estadística correspondiente.

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Phi (  ) donde: a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un tests dicotómico.

Índice de discriminación (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Tetracórico (r t ) donde: a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem y un test ambos dicotomizados. asumiendo distribuciones normales

Índice de Validez El índice de validez de un ítems está referido a su correlación con un criterio externo al propio test. Como ocurre con el índice de discriminación su calculo dependerá de la naturaleza de las variables con las que se correlacione el ítem, es decir, las distintas fórmulas de correlación reseñadas en el índice de discriminación pueden ser utilizadas para el cálculo del índice de validez. Su cálculo es idéntico, si bien ahora no existe el problema adicional de que el ítem esté incluido en el criterio como podía ocurrir en el caso del índice de discriminación.

Información estadística: análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-. El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión. Información estadística: análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-. El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión.

Haladyna (1994) propone tres vías para recoger información acerca del funcionamiento de los distractores: 1. La tabla de frecuencias (Levine y Drasgow, 1982; Walner, 1989). 2. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). 3. Índices estadísticos (correlación distractor-puntuación total en el test, media en el test de los sujetos que eligen un distractor,  2 ).

1. La tabla de frecuencias (Levine y Drasgow, 1982; Walner, 1989). Análisis de las alternativas incorrectas (Muñiz, 1998). Alternativas ABC*DE ÍtemSuperior Inferior

2. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). Este enfoque se lleva a cabo desde la TRI. Consiste en tratar la alternativa incorrecta (distractor) como si fuese la opción correcta y analizar sus parámetros desde esta teoría.

3. Índices estadísticos (correlación distractor-puntuación total en el test, media en el test de los sujetos que eligen un distractor,  2 ). Correlación biserial de cada alternativa con la puntuación total de un test con ítems de 5 alternativas. Alternativas ArbArb BrbBrb C* r b DrbDrb ErbErb Ítem n

Información estadística: examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988). Información estadística: examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988).

En resumen, los principales criterios de bondad de una prueba y subsecuentemente de un ítem son dos: fiabilidad y validez.

Este procedimiento permite establecer la existencia de asociación entre dos variables cuando se condiciona a una tercera variable. El valor obtenido tiene un grado de libertad: ( gl = [columnas - 1] x [filas - 1]) Si el valor de Chi cuadrado calculado excede el valor teórico, se está en condiciones de poder rechazar la hipótesis de nulidad H0 (falta de asociación) en favor de H1 (asociación). Procedimiento de Mantel-Haenszel