EL ESTUDIO DEL SESGO EN LOS TESTS

Slides:



Advertisements
Presentaciones similares
P3. Tests y escalas: Uso profesional
Advertisements

ESCALAS DE MEDIDA Resumen Jorge Everardo Aguilar Morales y Jaime Ernesto Vargas Mendoza Asociación Oaxaqueña de Psicología A. C
y en las personas que nos rodean
Tema 1: Introducción a la Psicología (Capítulos 1 y 4 del libro)
CONFIABILIDAD Y VALIDEZ DE UN INSTRUMENTO
EVALUACIÓN EN PSICOLOGÍA CLÍNICA
COEFICIENTE DE CRONBACH
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
ANÁLISIS DISCRIMINANTE
Muestra: Recolección de Datos: Análisis de Datos:
Problema de la medición en Psicología
Uso de pruebas en Psicología
CONFIABILIDAD Y VALIDEZ DE INSTRUMENTOS
Psicometría Teoría de los tests.
Análisis de la estructura de medias. 2 Hasta ahora, análisis de la estructura de covarianzas (como trabajar con puntuaciones diferenciales) En los análisis.
Análisis Factorial de Datos Categóricos
Órigenes:. Estandarización Se basa en la diferencia entre la probabilidad de acierto en uno y otro grupo. El indicador, DPE, diferencia en proporciones.
Población y Muestra.
Validación de instrumentos (Creación, validación y optimización)
NTP 544: ESTIMACIÓN DE LA CARGA MENTAL DE TRABAJO: MÉTODO NASA TLX.
Estadístico Mantel-Haenszel Estadístico utilizado para determinar cuando dos variables (grupo y acierto) son independientes cuando se condiciona a una.
LA INTELIGENCIA I EVALUACION DE PRODUCTOS COGNITIVOS
MBE: Revisiones Sistemáticas Dr. Augusto Pérez Departamento de Pediatría - UCIP.
APROXIMACION METODOLOGICA AL ESTUDIO DE LA PERSONALIDAD
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
Inferencias con datos categóricos
¿Es útil el cuestionario Migraine- ACT para detectar los pacientes migrañosos que requieren un cambio de tratamiento? Kilminster SG, Dowson AJ, Tepper.
Qué saben los adultos españoles y que pueden hacer con lo que saben
Validez y Confiabilidad de Instrumentos
THE LONGITUDINAL EFFECTS OF WORK- FAMILY CONFLICT AND POSITIVE SPILLOVER ON DEPRESSIVE SYMPTOMS AMONG DUAL- EARNER COUPLES Hammer, L; Cullen, J; Neal,
¿Para qué sirven las evaluaciones externas? Sevilla 27 de abril de 2011 F. Javier Merchán Iglesias.
Medidas de Posición y Centralización Estadística E.S.O.
Naturaleza y estructura de las diferencias individuales en inteligencia Tema 5.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Análisis Sensorial como Herramienta de Control de Calidad
Instrumentos para la recolección de información
Las Pruebas del Software y sus Fundamentos
¿QUE SON LAS ACTUALIZACIONES?  Las actualizaciones son adiciones al software que pueden evitar problemas o corregirlos, mejorar el funcionamiento del.
ADAPTACIÓN Y CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS.
De constructo, de criterio, de contenido.
Métodos basados en la TRI 1. Se trata de ver si las CCIs coinciden (no DIF) o no (sí DIF). 2. Algunas estrategias: - Obtener el área entre curvas - Ajuste.
Métodos cuantitativos Construcción y validación de instrumentos en Salud Pública.
Validez Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad), y otra diferente es la cuestión de qué es.
MÉTODOS, DISEÑOS Y TÉCNICAS DE INVESTIGACIÓN PSICOLÓGICA
Operacionalización de variables.
Índices de validez Nazira Calleja.
Tema 3.1. Procedimiento de construcción de un instrumento de medida
Psicometría (Introducción)
4. Confiabilidad Bases conceptuales
Cuestionario de Apoyo Social Percibido
La naturaleza del control
(INGLES, XAVIER, DOLORES, 2000) Cuestionario de evaluación de dificultades interpersonales.
Escala de Necesidad de Cognición
DIMENSIONALIDAD del instrumento Y ANÁLISIS FACTORIAL
Factores Críticos de Éxito
09. Validez Estimación y evaluación de la evidencia de
Escaneo de los datos.
‹#› PARCC Ajusta el Nivel de Rendimiento Place your logo here Washington Elementary School
4-Test de inteligencia.
Estudio técnico del instrumento
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
TEORIA CLASICA y TEORIA DE RESPUESTA AL ITEM ( TRI )
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
Tema 5.1 Evaluación del instrumento de medida:
Matrices ¿Qué es una matriz? ¿Qué es una matriz? ¿Qué es una matriz? ¿Qué es una matriz? Su Estructura Su Estructura Su Estructura Su Estructura Propiedades.
DIFERENCIAS DE LAS TEORIAS DE LOS TEST TCT Y TRI
Psicometría 01: Psicometría Básica
TEORIA DE RESPUESTA A LOS ITEMS VERSUS TEORIA CLASICA DE LOS TESTS
Desarrollos Actuales de la Medición Tema 3 FUNCIONAMIENTODIFERENCIAL DE LOS ÍTEMS Ana Expósito Mingueza.
Transcripción de la presentación:

EL ESTUDIO DEL SESGO EN LOS TESTS DEFINICIÓN DE SESGO SESGO EN LOS TESTS SESGO EN LOS ITEMS 3.1) TIPOS DE SESGO 3.2) MÉTODOS DE DETECCIÓN 3.3) SOFTWARE

Tests tienen importantes consecuencias. LSAT, GRE, SAT, PISA, TIMSS,… Habrá que asegurarse que lo que el test mide es relevante (validez) para lo que se aplica. Supuesto lo anterior, las puntuaciones en el test o ítems no deben depender de otras características (como género, idioma,..) distintas a las que el test mide. Discriminación en grupos minoritarios: Afro-americanos, latinos, indios _americanos, Discriminación por género…

Perspectiva Clásica: Validez Predictiva (sesgo en relación a la predicción de un criterio externo) Y’=AX+B 2 Y Y 1 Falacia Igualitarista? X X 2 2 Y Y 1 1 X X Educational Testing Service…->DIF

ALGUNOS CONCEPTOS Funcionamiento Diferencial del ítem (DIF): Existe DIF si la probabilidad de acierto en el ítem es distinta para gente de uno y otro grupo, teniendo unos y otros el mismo rasgo. Los estudios de DIF se ocupan de determinar si los ítems tienen o no este problema. Funcionamiento Diferencial del test (DTF): Existe DTF si la suma de las probabilidades de acierto en el test es distinta para gente de uno y otro grupo, teniendo unos y otros el mismo rasgo. Impacto es la diferencia en el rasgo entre los dos grupos. Sesgo (bias): Efecto que se produce en las puntuaciones por alguna fuente de varianza irrelevante al constructo (measurement bias) o el efecto de tales fuentes en la covarianza entre las puntuaciones y un criterio (predictive bias). Por tanto, si hay DIF, se requiere un estudio del porqué difiere el rendimiento el grupo de referencia y el grupo focal, o mayoría y minoría. Si un ítem tiene DIF y un panel de expertos determina que la diferencia de puntuaciones no se debe al constructo medido. El DIF es una aproximación para estudiar el sesgo. Grupo de referencia/Grupo focal

IMPACTO Y DIF X NRK ARK PRK NFK AFK PFK 0-15 400 40 .1 1000 200 .2 DIF: Diferencias no explicadas por el nivel de rasgo X NRK ARK PRK NFK AFK PFK 0-15 400 40 .1 1000 200 .2 15-30 500 .5 600 .6 30-45 900 .9 1 Total 2400 1440 1200 Dependen TAMBIEN de las diferencias verdaderas en el nivel de rasgo (Impacto) Paradoja de Simpson

TIPOS DE DIF DIF uniforme y no uniforme

What does alto mean? Again Also Countertenor High In adition (ejemplo extraído de De ayala, 2009)

Caso real (Ejemplo 1): Rendimiento What is the way around this rectangle? Answer:______ ¿Cuál es el contorno del rectángulo? Grupo P(España) P(USA) 0-15 0.15 0.20 16-30 0.20 0.30 31-45 0.23 0.35 46-60 0.40 0.65 61-75 0.45 0.70 76-90 0.48 0.75 2 inches 4 inches

Estudio de DIF (Ejemplo 2): Aptitudes Abad, Colom, Rebollo, Escorial (2003): Sex differential functioning in the Raven’s Advanced Progressive Matrices: evidence for bias. P.and Ind. Diff. La media en Raven suele ser mayor en los hombres, pese a que no es mayor la media en “factor g”

Estudio de DIF (Ejemplo 3): personalidad Reise, S.P., Smith, L. y Furr, R,M. (2001): Invariance of the NEO-PI-R Neuroticism Scale. Multivariate Behavioural Research, 36 (1), 83-110. Faceta de ansiedad dentro de la escala de Neuroticisimo del NEO-PI-R: Items más fáciles para los hombres: - A menudo me siento tenso e inquieto - Me preocupa con frecuencia por cosas que podrían salir mal Items más fáciles para las mujeres: - Tengo más miedos que la mayoría de la gente - Me asusto con facilidad Funcionamiento Diferencial del test: Ambos se cancelan. ¿Solución? ¿Eliminar ítems? ¿Construir 2 escalas?

Aspectos a considerar: 1.) Si el ítem tiene DIF 2.) Si el DIF del ítem es relevante desde el punto de vista práctico 3.) Si el DIF del ítem se traduce en un test con DTF.

DIF y multidimensionalidad Peso en un rasgo secundario alto para el grupo FOCAL Media & SD en el rasgo secundario Iguales en los dos grupos Peso en un rasgo secundario alto para el grupo FOCAL SD en el rasgo secundario Iguales en los dos grupos Media en el rasgo secundario menor en el grupo Focal

DIF y multidimensionalidad Peso en un rasgo secundario alto para el grupo FOCAL Media en el rasgo secundario Iguales en los dos grupos SD en el rasgo secundario menor en el grupo Focal Peso en un rasgo secundario alto para el grupo FOCAL Media & SD en el rasgo secundario menores en el grupo Focal