Tema 3.1. Procedimiento de construcción de un instrumento de medida

Tema 3.1. Procedimiento de construcción de un instrumento de medida
PSICOMETRÍA Tema 3.1. Procedimiento de construcción de un instrumento de medida Salvador Chacón Moscoso Susana Sanduvete Chaves Agradecemos a Francisco Pablo Holgado Tello su inestimable colaboración en la elaboración de este material

1. Tipos de instrumentos 1. Test:
Instrumento de medida psicológico, usado generalmente para medir variables cognitivas (habilidades, conocimiento, rendimiento, etc.). Las respuestas de los participantes a cada ítem son correctas o incorrectas. La puntuación total obtenida en el test se calcula sumando todas las respuestas correctas (directamente, o aplicando diferentes pesos a los ítems).

1. Tipos de instrumentos 2. Escala:
Normalmente, se utiliza para medir variables no cognitivas: actitudes, intereses, preferencias, etc. Sobre una escala con categorías graduadas y ordenadas, los participantes tienen que elegir la categoría que mejor representa su posición acerca de aquello que mide en instrumento. No existen respuestas correctas e incorrectas. La puntuación total es la suma de las puntuaciones asignadas a cada categoría elegida por el participante.

1. Tipos de instrumentos 3. Cuestionario:
Generalmente, está compuesto por ítems no necesariamente relacionados entre sí, cuyas opciones de respuesta no están gradualmente ordenadas, que pueden ser interpretadas de manera individual y que no son correctas o incorrectas. Normalmente, incluye cuestiones variadas para obtener información acerca del participante y su contexto (edad, profesión, nivel educativo, opinión sobre el tema que es está discutiendo, etc.). Se usa frecuentemente en la investigación de encuesta.

1. Tipos de instrumentos 4. Inventario:
Generalmente, se usa para medir variables de personalidad. Las respuestas de los participantes no son correctas o incorrectas; muestran conformidad o no con cada ítem presentado.

2. Proceso de construcción
2.1. Finalidad: Qué A quién vamos a medir Por qué 2.2. Características del instrumento: Contenido Formato: tipo de ítems Longitud: número de ítems Características psicométricas de los ítems 2.3. Redacción de los ítems: recomendaciones. 2.4. Revisión crítica de los ítems por parte de un grupo de expertos.

2. Process of construction
2.5. Prueba piloto: Instrucciones de administración Formato de presentación Formato de la hoja de respuestas 2.6. Implementación de la prueba piloto: Individual-colectiva Papel y lápiz, ordenador, teléfono, etc. 2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes: En tests formados por ítems de respuesta cerrada En tests formados por ítems de construcción

2.1. Finalidad 2.1.1. Definición del constructo
Variable psicológica (e.g., habilidad verbal). No observable directamente (teórico). Se muestra a través de un conjunto de conductas que pueden ser observadas directamente, por lo que pueden medirse (e.g., número de palabras conocidas para nombrar un objeto; adecuación en la elección de una palabra en función del contexto). Estas conductas, para ser consideradas manifestaciones del constructo, han de ser más o menos uniformes y constantes a lo largo del tiempo, y en una amplia variedad de situaciones. Todo el contenido referido al constructo habría de estar representado por los ítems del test.

2.1. Finalidad 2.1.2. Población diana
Dependiendo de cuál sea, el test diferirá en: Contenido. Vocabulario. Longitud. Condiciones de aplicación. Etc. E.g., población infantil – adulta.

2.1. Finalidad 2.1.3. Uso que se dará a la prueba
Hay que considerar las decisiones que se tomarán en base a las puntuaciones obtenidas. E.g., para detectar a niños superdotados - ítems especialmente difíciles; para detectar a niños con necesidades especiales – ítems especialmente fáciles. Posibles usos: selección de personal, clasificación, diagnóstico, certificación, orientación/consejo, descripción/información.

2.2. Características del test 2.2.1. Contenido
Conjunto de conductas consideradas manifestaciones del constructo. Para delimitar estas conductas: Análisis de contenido. Revisión bibliográfica. Observación directa. Opinión de expertos.

2.2. Características del test 2.2.2. Formato de los ítems
Ítems de elección: Respuesta cerrada. Elección de una o más alternativas. A1. Dos alternativas (verdadero/falso; sí/no; correcto/incorrecto). Se usan a menudo para medir variables cognitivas (habilidades y conocimiento, y tests de rendimiento). Ventaja: rápido y fácil de aplicar. Desventaja: los participantes que no saben la respuesta y contestan al azar tienen un 50% de probabilidades de acertar.

A2. Elección múltiple: Más de 2 alternativas: 3-5 para reducir la posibilidad de acertar al azar. Una alternativa es la correcta o la más apropiada. Se usa para medir variables cognitivas, principalmente en tests de conocimiento y rendimiento. Ventajas: fácil de administrar y corregir. Desventaja: más difícil de elaborar que el test de dos alternativas.

A3. Emparejamiento: - El participante une conceptos estructurados en dos columnas. Se usa para medir variables cognitivas, especialmente conocimiento. A4. Formato Cloze o incompleto. - E.g., el participante ha de completar los huecos de una frase utilizando palabras de un listado.

A5. Escalas de clasificación (rating scales): Se presenta una oración y categorías graduadas a través de un continuo. El participante elige la alternativa que más refleja su actitud personal. Se usa para medir variables no cognitivas (actitudes, intereses, personalidad, etc.). Ventaja: los participantes expresan su posición de manera precisa. Desventaja: sesgos en la respuesta: algunos participantes tienden a elegir las opciones centrales (moderados); otros tienen a los extremos (radicales).

A6. Checklists. Escala de valoración en la que los participantes tienen que mostrar su opinión sobre unos hechos presentados en los enunciados. La lista de opciones no tiene un orden y son independientes. A veces, es posible elegir más de una opción. Es el típico formato utilizado en el cuestionario. E.g. Tu deporte favorito es: a) fútbol; b) tenis; c) golf.

B. Ítems de construcción (de respuesta abierta): el participante tiene que elaborar su propia respuesta. De este modo, podemos evaluar no sólo su nivel de conocimiento, sino también el modo de estructurar los contenidos y expresarlos, o su originalidad. B1. Respuesta corta. B2. Respuesta larga o ensayo.

2.2. Características del test 2.2.3. Longitud del test
No hay una solución única porque se han de tener en cuenta diferentes factores (población diana, tiempo del que se dispone para responder al test, objetivo del test, etc.). Se recomienda que la prueba piloto incluya un amplio número de ítems; más de los que se espera tener en la versión final de la prueba.

2. 2. Características del test 2. 2. 4
2.2. Características del test Características psicométricas de los ítems En la Teoría Clásica de los Tests, un ítem es fácil o difícil para una población dada en función de la probabilidad que tengan los participantes de responderlo correctamente. Si esta probabilidad es alta, el ítem se considerará fácil y viceversa. Un ítem tendrá un alto grado de homogeneidad con el resto de ítems que conforman el test cuando midan lo mismo. Un ítem será discriminativo en la medida en que sea útil para diferenciar entre los participantes que obtuvieron las puntuaciones extremas en el test.

2. 2. Características del test 2. 2. 4
2.2. Características del test Características psicométricas de los ítems En función de la dificultad de los ítems, encontramos: Tests de velocidad: Los ítems deberían ser fáciles de resolver. El tiempo límite para responder es el factor que permitirá discriminar entre los participantes. Tests de ejecución máxima: Usados principalmente en la evaluación del desempeño académico, aptitudes y destrezas. Los ítems presentan diferentes niveles de dificultad. Tests de ejecución típica: Se usan principalmente para medir personalidad, actitudes, etc. Aquí no tiene sentido hablar de dificultad porque no existen respuestas correctas e incorrectas.

2.3. Redacción de los ítems 2.3.1. Recomendaciones generales
Evitar enunciados ambiguos. Usar enunciados cortos, directos y precisos. Evitar enunciados que puedan conllevar sesgo de respuesta: una opción es elegida con mayor probabilidad independientemente de la opinión del participante; e.g., si el participante tiene que admitir una conducta socialmente inapropiada.

2.3. Redacción de los ítems 2.3.1. Recomendaciones generales
Expresar una sola idea en cada enunciado (evitar dobles preguntas); e.g., ¿estás a favor de reducir el consumo de alcohol en adolescentes y subir las tasas de las bebidas alcohólicas? Evitar dobles negaciones en un enunciado; e.g., ¿piensa usted que es imposible que el hombre nunca hubiera llegado a la luna?

2.3. Redacción de los ítems Recomendaciones para ítems de elección con dos alternativas de respuesta Asegurarse de que el ítem es indudablemente verdadero o falso; e.g., Dalí fue el mejor pintor del siglo XX. Evitar palabras en el enunciado que pudieran llevar a la respuesta correcta aun cuando el participante no la supiera; e.g., el uso de “siempre” o “nunca”. Situar de manera aleatoria, a lo largo del test, los enunciados que son verdaderos para evitar el reconocimiento de patrones de respuesta por parte de los participantes.

2.3. Redacción de los ítems 2.3.2. Recomendaciones para ítems de elección múltiple
Asegurarse de que el enunciado del ítem formula el problema de manera clara. Incluir la mayoría del texto en el enunciado para evitar repeticiones innecesarias en las opciones de respuesta. Asegurarse de que los distractores (alternativas incorrectas) son plausibles. Evitar opciones de respuesta tales como “ninguna de las anteriores” o “todas las anteriores”. Habrá sólo una opción correcta a no ser que se especifique claramente lo contrario. Todas las alternativas han de ser uniformes en longitud y presentar una construcción gramatical similar. Colocar las alternativas correctas de manera aleatoria. Hacer que todas las opciones de respuesta parezcan igualmente atractivas. Asegurarse de que cada alternativa es gramaticalmente consistente con el enunciado del ítem.

2.3. Redacción de los ítems 2.3.3. Sesgo de respuesta
Cuando se elijan los ítems a incluir, es interesante tener en cuenta la posibilidad de sesgo de respuesta, especialmente en tests afectivos (de personalidad intereses, actitudes, etc.): Aquiescencia. Tendencia a responder de manera sistemática en favor (o en contra) del enunciado del ítem, independientemente de su contenido. Deseabilidad social: Tendencia a responder al ítem de una manera socialmente aceptable. Indecisión. Tendencia a seleccionar las opción neutral. Respuesta extrema. Tendencia a elegir las categorías de los extremos.

2.4. Revisión crítica de los ítems por un grupo de expertos
Es preferible que los expertos que participen no hayan participado en la elaboración de los ítems. De este modo, podrán opinar no sólo acerca del ajuste de cada ítem con la dimensión que pretende medir, sino también sobre su claridad, formato, etc. Después de revisar los ítems y modificar o corregir aquellos considerados no apropiados por los expertos, se puede pasar a la elaboración del instrumento que se usará en el estudio piloto.

El índice de congruencia propuesto por Osterlind puede utilizarse para determinar si los ítems son útiles para medir una dimensión concreta del constructo: Xijk = Puntuación en el ítem i de la dimensión k propuesta por el juez j. N = número de dimensiones del instrumento. n = número de jueces.

Se obtiene un índice de congruencia para cada ítem. Los resultados posibles oscilan entre ±1, dependiendo del grado de congruencia entre las respuestas de los expertos: -1 supondría que todos los expertos están de acuerdo en considerar que el ítem no se ajusta a la dimensión que pretende medir. +1 implicaría que todos los expertos asignaron el mayor grado de ajuste a la relación ítem-dimensión. 0 sería el menor grado de acuerdo entre la opinión de los diferentes expertos. Los ítems que obtiene 0,5 o una puntuación mayor son usualmente incluidos en el instrumento propuesto.

Ejemplo: Construimos una escala para medir la calidad metodológica de las intervenciones en psicología, con ítems referidos a 3 dimensiones diferentes: características extrínsecas, sustantivas y metodológicas. Estamos interesados en conocer si los ítems “Momentos de medida: a. después de la intervención; b. antes de la intervención” (ítem 1); y Periodo de tratamiento: a. <6 meses; b. ≥6 meses” (ítem 2) son útiles para medir la dimensión metodológica del constructo calidad. La tabla que a continuación se presenta, muestra el número de expertos que eligieron cada opción (-1: no útil; 0: ni útil ni inútil; +1: útil) :

Calcular el índice de congruencia de los ítems 1 y 2. ¿Deberíamos eliminar alguno de los ítems? Categorías -1 +1 ítem 1 70 130 ítem 2 30 100

0,2 < 0,5 → El ítem 2 debería ser eliminado.

2.5. Prueba piloto 2.5.1. Instrucciones de administración
Cada tipo de test precisa de unas instrucciones diferentes. Existen sin embargo algunos aspectos comunes en todas ellas: No usar un lenguaje amenazador; e.g., este test nos permitirá determinar su grado de inteligencia. En los tests de máximo rendimiento (e.g., test de habilidad), explicar que los ítems son de diferente dificultad. Esto reducirá la ansiedad del participante. En tests de velocidad, explicar que el tiempo es limitado y que poca gente consigue acabar el test completo.

2.5. Prueba piloto 2.5.1. Instrucciones de administración
Se han de presentar uno o más ítems de ejemplo. Se debe informar de cómo distribuir el tiempo y qué hacer cuando se desconoce la respuesta correcta de un ítem. Se debe animar a los participantes a responder todas las preguntas porque la puntuación obtenida suele descender cuantas más preguntas en blanco se dejan. Explicar cómo marcar las respuestas correctas.

2. 5. Prueba piloto 2. 5. 2. Formato de presentación 2. 5. 3
2.5. Prueba piloto Formato de presentación Formato de la hoja de respuestas El formato de presentación debería ser claro y legible para todos los participantes, para evitar errores como equivocarse al rellenar la hoja de respuesta. Solicitar, al principio del test, los datos identificativos de los participantes. A continuación, presentar las instrucciones.

2. 5. Prueba piloto 2. 5. 2. Formato de presentación 2. 5. 3
2.5. Prueba piloto Formato de presentación Formato de la hoja de respuestas Después, presentar los ítems: En tests que miden variables cognitivas (conocimiento, habilidades, etc.), ordenar los ítems en función de su dificultad. No presentar primero los más difíciles. En tests que miden variables no cognitivas, se recomienda no incluir las preguntas más controvertidas o delicadas al principio. Cuando un test incluye ítems de varios formatos, habrían de aparecer agrupados. Agrupar los ítems que tratan sobre el mismo tema.

2.6. Implementación de la prueba piloto
Decidir el método de administración y selección de una muestra de participantes pertenecientes a la misma población para la que el test está diseñado. Método de administración: Colectivo-individual. Oral (en persona o por teléfono). Papel y lápiz. Por ordenador (menor coste de tiempo). Por correo.

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada En un test cognitivo: En primer lugar, comprobamos si las respuestas de los participantes son correctas o incorrectas comparándolas con la plantilla. Usualmente, se asigna un punto por cada respuesta correcta. Puntuación final: usualmente, la suma de las respuestas correctas. Debido a la influencia de responder al azar en función del patrón de personalidad (e.g., más o menos arriesgado), conviene recomendar a los participantes que no dejen ninguna pregunta sin responder, o aplicar algún procedimiento para controlar el efecto del azar en la puntuación final (esta segunda opción es más recomendable).

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Podemos aplicar la corrección del azar siguiendo dos procedimientos: 1. Penalizando los errores. Se asume que el participante desconocía la respuesta correcta y que todas las alternativas eran igual de atractivas. XC = puntuación corregida. A = número de aciertos. Aa= número de aciertos por azar. E = número de errores. K = número de alternativas de los ítems.

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada 2. Premiando las omisiones. Se asume que el participante sólo respondió a las preguntas que sabía y, por tanto, que no hubo errores. XC = puntuación corregida. A= número de aciertos. Aa= número de aciertos por azar. O = número de omisiones. K = número de alternativas de los ítems

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Se aconseja el uso del primer procedimiento porque, utilizando el segundo, las puntuaciones sufren una sobrestimación. E.g.: Dos estudiantes sabían la respuesta de 10 de las 20 preguntas de un examen (de verdadero o falso). El estudiante A sólo respondió a las 10 preguntas que sabía; el estudiante B decidió responder a todas las preguntas (respondiendo al azar, acertó 5 más). Corregir sus puntuaciones usando los procedimientos 1 y 2.

Corrección con el procedimiento 2 Corrección con el procedimiento 1
2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Corrección con el procedimiento 2 Corrección con el procedimiento 1 Estudiante A: Estudiante B: Estudiante A: Estudiante B: sobrestimación

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Cuando un test está formado por ítems con diferente número de alternativas, aplicaremos la corrección del azar por partes para conocer la puntuación final de cada participante. Los ítems se agruparán en función del número de alternativas. Posteriormente, se calculará la puntuación del participante en cada grupo de ítems. Puntuación final: suma de las puntuaciones parciales.

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Ejemplo: Un test está formado por 100 ítems: 25 ítems presentan 2 alternativas; 25, 3 alternativas; y 50, 4 alternativas. (a) Utilizando el procedimiento 1, calcular la puntuación con corrección del azar obtenida por un participante que respondió a los 100 ítems y acertó 14 ítems de 2 alternativas de respuesta, 21 ítems de 3 alternativas y 29 de 4 alternativas; y (b) Calcular la puntuación obtenida sin aplicar ninguna corrección del azar.

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Ejemplo: (a) (b)

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada En tests que miden constructos no cognitivos: En ausencia de respuestas correctas e incorrectas, los ítems tienen un valor numérico diferente asignado a cada alternativa de respuesta. Es necesario que la asignación numérica a cada categoría de respuesta se haga bien. Corrección del test y asignación de una puntuación a los participantes: se suman los valores numéricos asignados a las alternativas de respuesta elegidas por el participante.

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de respuesta cerrada Cuando se usa, por ejemplo, un formato de escala de valoración, debemos tener muy claro la dirección del continuo en el que la variable se está midiendo. Si es una variable sobre actitudes, tenemos que saber cuál de los extremos del continuo es el que marca la actitud más favorable, y cuál la más desfavorable. E.g., depresión. Qué extremo marca la ausencia de depresión y cuál la máxima puntuación. Después, se decidiría qué valor numérico asignar al extremo del continuo como mayor puntuación posible, y habría que asegurarse de que todos los ítems fueran en el mismo sentido.

2.7. Corrección de la prueba piloto y asignación de las puntuaciones a los participantes En pruebas formadas por ítems de construcción Métodos: Puntuación analítica: Establecer las dimensiones a considerar. Definir la respuesta correcta. Puntuación final: dos valores (aprobado/suspenso). Los no expertos podrían evaluar. Puntuación holística: Evaluación global. Puntuación final: diferentes posibles valores (e.g., 0-10). Sólo expertos entrenados para evaluar podrían hacerlo adecuadamente.

2.8. Resumen del procedimiento para elaborar un instrumento de medida (Croker & Algina, 1986)
Definición del objetivo. Definición del constructo: proceso inductivo o deductivo. Descripción de los componentes del constructo: pueden variar desde uni-dimensional (constructo muy específico) hasta multidimensional (constructo muy general). Diseño del instrumento. Redacción de ítems: claridad, no ambigüedad, brevedad. Análisis de la calidad de los ítems: información descriptiva y estadística. Fiabilidad: estabilidad de las puntuaciones del test y consistencia interna. Validez: adecuación de las inferencias realizadas a partir de las puntuaciones obtenidas en el test. Desarrollo de las reglas de implementación, interpretación y baremación.

Tema 3.1. Procedimiento de construcción de un instrumento de medida

Presentaciones similares

Presentación del tema: "Tema 3.1. Procedimiento de construcción de un instrumento de medida"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema 3.1. Procedimiento de construcción de un instrumento de medida

Presentaciones similares

Presentación del tema: "Tema 3.1. Procedimiento de construcción de un instrumento de medida"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback