Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porSandra Olivares Escobar Modificado hace 6 años
1
Tema 6.1 Evaluación del instrumento de medida:
PSICOMETRÍA Tema 6.1 Evaluación del instrumento de medida: VALIDEZ i Salvador Chacón Moscoso Susana Sanduvete Chaves Agradecemos a Francisco Pablo Holgado Tello su inestimable colaboración en la elaboración de este material
2
EVALUACIÓN DEL INSTRUMENTO DE MEDIDA: VALIDEZ (I)
TEMA 6.1. EVALUACIÓN DEL INSTRUMENTO DE MEDIDA: VALIDEZ (I) 1. Introducción al concepto de validez y su evolución histórica 2. Validación de contenido 3. Validación de constructo 3.1. La matriz multimétodo-multirrasgo 3.2. El análisis factorial 4. Validación referida al criterio 4.1. El problema de la selección y medición del criterio 4.2. Procedimientos estadísticos utilizados en la validación referida al criterio 5. Validación con un único predictor y un solo indicador del criterio 5.1. El coeficiente de validez 5.2. El modelo de regresión lineal Ecuaciones de regresión La varianza residual y el error típico de estimación Intervalos de confianza 5.3. Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test Coeficiente de determinación (C.D.) Coeficiente de alineación (C.A.) Coeficiente de valor predictivo (C.V.P.) 6. Bibliografía comentada El tema 6 es el tercer tema del bloque dedicado a la TCT, aborda el concepto de validez y cómo poder estimarla. La organización del tema es la recomendada por el Instituto Universitario de Educación a Distancia para la organización de los contenidos en un proceso de enseñanza-aprendizaje a distancia. Concretamente, en primer lugar aparecen las orientaciones didácticas donde se marcarán los objetivos, y se resalta la importancia del tema en el conjunto de la asignatura. A continuación aparece, un bloque central con los contenidos específicos del tema, y para finalizar veremos algunos ejercicios de autocomprobación y se mostrará bibliografía relevante comentada.
3
1. INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTORICA
Evolución histórica: Según los “Standards for educational and psychological tests and manuals” (APA, AERA, NCME, 1966, 1985), la validez hace referencia al grado en que se mide aquello que se pretende medir, pudiéndose diferenciar entre validez de contenido, de criterio y de constructo visión tripartita predominante. Messick (1989) amplía el concepto: abre el concepto de medida no limitándolo a las puntuaciones del test, sino incluyendo las puntuaciones obtenidas en cualquier otro instrumento de evaluación. destaca la importancia de considerar la utilidad de las decisiones y consecuencias derivadas del procedimiento de medida, apareciendo el concepto de validez consecuencial. enfoque integrador del macroconcepto de validez en torno a la validez de constructo. Según los Standards for educational and psychological tests and manuals en sus versiones de 1965 y 1985, la validez hace referencia al grado en que se mide aquello que se pretende medir, pudiéndose diferenciar entre validez de contenido, criterio y constructo. Esta ha sido la visión tripartita predominante durante largo período de tiempo. Posteriormente Messick (1989), amplía el concepto de validez introduciendo nuevos elementos: a) en primer lugar abre el concepto de medida, no limitándolo a las puntuaciones del tests, sino que también incluye las puntuaciones obtenidas por cualquier otro instrumento de evaluación; b) en segundo lugar entiende la importancia de considerar la utilidad de las decisiones y las consecuencias derivadas del procedimiento de medida, de tal forma que llega a considerar que la validación también implica una evaluación de las consecuencias de la medida, de hecho ha sido tan relevante esta aportación que ha dado lugar a un nuevo tipo de evidencia de validez denominada validez consecuencial; y c) y en tercer lugar presenta un enfoque integrador del macro-concepto de validez en torno a la validez de constructo.
4
1. INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTORICA
Evolución histórica: “…la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluación empírica de hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada” (Messick, p. 741) En palabras de Messick: “la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluación empírica de hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada.
5
Principal aportación de Messick (1994)
1. INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTORICA Principal aportación de Messick (1994) Ruptura con la visión tripartita de la validez. La validez de constructo asume la relevancia y representatividad de los aspectos medidos (v. contenido) así como las relaciones con otros criterios externos de interés (v. criterio). Entendemos la validez como concepto unitario donde la validez de constructo es el aspecto central donde convergen criterios científicos (representatividad y utilidad) y valores sociales (consecuencias de la aplicación de la medida). La principal aportación de Messick (1994), radica en que rompe con la visión tripartita de validez. En este sentido, podríamos decir que la validez de constructo asume la relevancia y representatividad de los contenidos medidos (validez de contenido), así como las relaciones entre las puntuaciones de los instrumentos de medida con criterios externos de interés (validez de criterio), en tanto dichas conexiones deberían tener sentido teórico. Por tanto, al referirnos a la validez, lo hacemos a un concepto unitario que integra la adecuación, significado, utilidad y relevancia de las inferencias basadas en las puntuaciones de los instrumentos de medida. Todo ello se apoya sobre la validez de constructo como aspecto central donde convergen criterios científicos (representatividad y utilidad) y valores sociales (consecuencias de la aplicación de la medida)
6
1. INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTORICA
En teoría de tests, la validez hace referencia a la adecuación de las inferencias realizadas a partir de las puntuaciones del test. - Validación: proceso mediante el cual el constructor o el usuario de los tests recoge la evidencia empírica necesaria para apoyar las inferencias que se van a realizar. Se entiende por evidencia tanto los datos, observaciones y hechos, como los argumentos que permitan apoyar y sustentar esos hechos. - Según los estándares (1999), vamos a entender: -La validez como un concepto unitario. La validación como un proceso continuo que permitirá recoger evidencias sobre la adecuación de las inferencias. - Específicamente, en Teoría de Tests, vamos a entender que el concepto de validez va a hacer referencia a la adecuación de las inferencias realizadas a partir de las puntuaciones de los test. En este sentido, entenderemos la validación, como el proceso mediante el cual, el constructor, o el usuario de los tests, recogen la evidencia empírica necesaria para apoyar las inferencias que se van a realizar; entendiendo por evidencia tanto los datos, observaciones y hechos, como los argumentos que permitan apoyar y sustentar esos hechos. Por ello, según los estándares vamos a entender: -La validez como un concepto unitario. -Y la validación como un proceso continuo que permitirá recoger evidencias sobre la adecuación de las inferencias. Lo que implica que los distintos “tipos de evidencias” se va a sustituir por distintas estrategias para obtener evidencias de validez. “Distintos tipos de validez” se sustituye por “distintas estrategias para obtener evidencias de validez”
7
2. VALIDACIÓN DE CONTENIDO
VALIDACIÓN DE CONTENIDO: se analiza hasta qué punto los elementos de un test son: 1. Relevantes: exhaustiva especificación de todas las posibles conductas o dominios del constructo a medir (nada sobra). 2. Representativos: que todas las posibles conductas estén recogidas en el test (nada falta). Distinción artificial entre Validez de Contenido y de Constructo, ya que en el momento en que se definen los dominios a medir, estaremos delimitando también el constructo La validación de contenido, hace referencia a analizar hasta qué punto los elementos de un test, son relevantes y representativos del constructo sobre el que se van a realizar las inferencias. Hemos hablado de relevantes y representativos. La relevancia, hace referencia a que se realice una exhaustiva especificación de todas las posibles conductas o dominios del constructo a medir. Mientras que la representatividad se refiere a que el test resultante esté compuesto por ítems de todas los dominios definidos por el constructo. Imaginemos que el constructo a medir es un programa de psicometría compuesto únicamente por temas de medición, fiabilidad, validez y análisis de ítems. Si queremos construir un test con validez de contenido deberíamos de especificar o definir concretamente cada uno de los dominios, Y a continuación seleccionar ítems de cada uno de ellos. En este punto, se podrá advertir que la distinción entre validez de contenido y de constructo es más artificial que real, ya que desde el momento en que se están definiendo los dominios del constructo a medir igualmente nos adentramos en el terreno de la V. de constructo.
8
Selección de un panel de expertos en el dominio.
2. VALIDACIÓN DE CONTENIDO Proceso: Definición del dominio del constructo definir claramente cada una de las dimensiones. Elaboración de las especificaciones del test. Es decir, el dominio y objetivos que va a cubrir el test. Selección de un panel de expertos en el dominio. Establecimiento de un marco estructurado para cuantificar el grado de acuerdo entre los distintos jueces. El proceso por el que se lleva a cabo una validación de contenido pasa por: A) definir el dominio de constructo, es decir, delimitar claramente cada una de las dimensiones del constructo que se va a medir. B) elaborar las especificaciones del test. Es decir, el dominio y objetivos que va a cubrir el test. C) selección de un panel de expertos en el dominio que mide el test. D) la operativización de un marco estructurado para que los jueces puedan valorar la adecuación del ítems al dominio que trata de medir. Ya que habitualmente, cada juez valora el grado de ajuste del ítem respecto al dominio en una escala con diversos puntos intermedios que van desde un mal ajuste...hasta...un buen ajuste.
9
2. VALIDACIÓN DE CONTENIDO
Es preferible que los expertos que participen no hayan participado en la elaboración de los ítems. De este modo, podrán opinar no sólo acerca del ajuste de cada ítem con la dimensión que pretende medir, sino también sobre su claridad, formato, etc. Después de revisar los ítems y modificar o corregir aquellos considerados no apropiados por los expertos, se puede pasar a la elaboración del instrumento que se usará en el estudio piloto.
10
2. VALIDACIÓN DE CONTENIDO
El índice de congruencia propuesto por Osterlind puede utilizarse para determinar si los ítems son útiles para medir una dimensión concreta del constructo: Xijk = Puntuación en el ítem i de la dimensión k propuesta por el juez j. N = número de dimensiones del instrumento. n = número de jueces.
11
2. VALIDACIÓN DE CONTENIDO
Se obtiene un índice de congruencia para cada ítem. Los resultados posibles oscilan entre ±1, dependiendo del grado de congruencia entre las respuestas de los expertos: -1 supondría que todos los expertos están de acuerdo en considerar que el ítem no se ajusta a la dimensión que pretende medir. +1 implicaría que todos los expertos asignaron el mayor grado de ajuste a la relación ítem-dimensión. 0 sería el menor grado de acuerdo entre la opinión de los diferentes expertos. Los ítems que obtienen 0,5 o una puntuación mayor son usualmente incluidos en el instrumento propuesto.
12
2. VALIDACIÓN DE CONTENIDO
Ejemplo: Construimos una escala para medir la calidad metodológica de las intervenciones en psicología, con ítems referidos a 3 dimensiones diferentes: características extrínsecas, sustantivas y metodológicas. Estamos interesados en conocer si los ítems “Momentos de medida: a. después de la intervención; b. antes de la intervención” (ítem 1); y Periodo de tratamiento: a. <6 meses; b. ≥6 meses” (ítem 2) son útiles para medir la dimensión metodológica del constructo calidad. La tabla que a continuación se presenta, muestra el número de expertos que eligieron cada opción (-1: no útil; 0: ni útil ni inútil; +1: útil) :
13
Calcular el índice de congruencia de los ítems 1 y 2.
2. VALIDACIÓN DE CONTENIDO Calcular el índice de congruencia de los ítems 1 y 2. ¿Deberíamos eliminar alguno de los ítems? Categorías -1 +1 ítem 1 70 130 ítem 2 30 100
14
0,2 < 0,5 → El ítem 2 debería ser eliminado.
2. VALIDACIÓN DE CONTENIDO 0,2 < 0,5 → El ítem 2 debería ser eliminado.
15
2. VALIDACIÓN DE CONTENIDO
Aplicaciones La validez de contenido es importante para cualquier proceso de construcción de test, pero entendemos que es absolutamente necesaria en tests de rendimiento educativo y ocupacional porque permite responder preguntas tales como: 1. ¿Está el contenido del test libre de variables irrelevantes? 2. ¿Cubre una muestra representativa de destrezas específicas, para algún puesto de trabajo, por ejemplo? Entendemos que la validez de contenido es absolutamente necesaria en cualquier proceso de construcción de test, sin embargo, entendemos que es absolutamente necesaria en los tests de rendimiento educativo y ocupacional. Ya que permite responder a preguntas muy relevantes en este aspecto como son: Si el contenido del test está libre de variables irrelevantes. Si cubre una muestra representativa de destrezas específicas necesarias para algún puesto de trabajo por ejemplo.
16
2. VALIDACIÓN DE CONTENIDO
Validez de contenido frente a validez aparente: los tests tienen que aparentar que están midiendo aquello que se proponen, de tal forma que si el contenido del test parece poco relevante, sin sentido o infantil, podría desmotivar a los participantes. Otro elemento importante a tener en cuenta es la validez aparente de los tests. Es decir, los tests tienen que aparentar que están midiendo aquello que se propone. De tal forma que si el contenido del test parece poco relevante, sin sentido o infantil, podría desmotivar a los sujetos.
17
3. VALIDACIÓN DE CONSTRUCTO
Se entiende como la medida en que el test refleja la teoría psicológica a partir de la que se ha construido, y permite interpretar las puntuaciones dándoles un significado teórico (APA, AERA, NCME, 1999). ¿Mide realmente el test la variable que intenta medir? ¿Existe en realidad dicha variable? Por su parte la validez de constructo se entiende como la medida en que el test refleja la teoría piscológica a partir de la que se ha construido y permite interpretar las puntuaciones teóricas dándole un significado teórico. Las preguntas que a las que se trata de dar respuesta mediante la validación de constructo son: 1. ¿mide realmente el test la variable que se intenta medir? 2 ¿existe realmente dicha variable?
18
3. VALIDACIÓN DE CONSTRUCTO
Las puntuaciones del test no son el constructo. El constructo puede manifestarse a través de múltiples indicadores. Por ello, mediante la Validación de Constructo, se acumulan evidencias que apoyan que las puntuaciones del test son una de sus posibles manifestaciones Lo que si conviene dejar claro es que las puntuaciones del test no son el constructo. Ya que el constructo puede manifestarse a través de múltiples indicadores. Mediante la validación de constructo se acumulan evidencias que apoyan que las puntuaciones del test son una de sus manifestaciones.
19
3. VALIDACIÓN DE CONSTRUCTO
Fases: Definir cuidadosamente el constructo a medir; para ello, se suele recurrir a teorías existentes y formular hipótesis entre: Variables latentes y observadas (validez del rasgo); Variables latentes medidas y otras variables latentes (validez nomológica). 2. Diseñar instrumento de medida que contenga elementos representativos y relevantes del constructo a medir. 3. Obtención de datos empíricos, y evidencias sobre las relaciones previamente hipotetizadas. 4. Establecer: La estructura interna del test: interrelaciones entre las puntuaciones obtenidas por los participantes en los distintos ítems. La estructura externa del test: relación entre las puntuaciones obtenidas en el test y otras medidas del mismo constructo con otros instrumentos. Las fases por la que se puede llevar a cabo un estudio de validación de constructo pueden ser las siguientes: 1. En primer lugar se ha de definir cuidadosamente el constructo a medir. Para ello se ha de recurrir a las teorías existentes y establecer una hipótesis sobre la posible relación entre las variables latentes (inobservables) y una serie de variables o indicadores observables (validez del rasgo). Además se han de establecer hipótesis sobre las relaciones con otras variables que pudieran estar relacionadas (validez nomológica). 2. En segundo lugar se ha de diseñar un instrumento de medida que contenga elementos representativos y relevantes del constructo a medir. 3. En tercer lugar se han de obtener datos empíricos y evidencias sobre las relaciones previamente hipotetizadas. Básicamente, se trata de obtener evidencias sobre la estructura interna del test y sobre la relación de las variables implicadas con otras variables externas de interés.
20
Matrices multimétodo-multirrasgo (Campbell y Fiske, 1959).
3. VALIDACIÓN DE CONSTRUCTO Procedimientos para la evaluación de validez de constructo Correlaciones con otras medidas del constructo. Es decir, correlaciones con otro test previamente validado. en la medida en que la correlación sea alta mayor será la relación del test con el constructo que trata de medir. Matrices multimétodo-multirrasgo (Campbell y Fiske, 1959). Análisis Factorial. Los distintos procedimientos más habituales para la obtención de evidencias de validez de constructo son: 1. A veces se utilizan las correlaciones entre las puntuaciones de un nuevo test y otros que se encuentren validados como evidencia de que el nuevo test mide el mismo constructo. En la medida, en que dicha correlación sea alta mayor será
21
3. VALIDACIÓN DE CONSTRUCTO
3.1. La matriz multimétodo-multirrasgo Matrices multimétodo-multirrasgo (Campbell y Fiske, 1959): Se mide un mismo constructo mediante distintos procedimientos y distintos constructos mediante el mismo método. Se obtienen tres tipos de correlaciones: - Coeficientes de fiabilidad: son las correlaciones entre el mismo constructo medido con el mismo método. - Validez convergente (monorrasgo-heterométodo): son las correlaciones del mismo constructo medido mediante distintos procedimientos. - Validez discriminante (heterorrasgo-monométodo): son las correlaciones de distintos constructos medidos con el mismo procedimiento. Se trata de un procedimiento propuesto por Campbell y Fiske, en el que se intenta medir un mismo constructo mediante distintos procedimientos; y distintos constructos mediante el mismo método. Con ello, lo que se obtiene son tres tipos de correlaciones: 1. Coeficiente de fiabilidad: que son las correlaciones entre el mismo constructo, medido con el mismo método. 2. La validez convergente, o coeficiente monorrasgo-heterométodo: son las correlaciones del mismo constructo medido con distintos procedimientos. 3. La validez discriminante, o coeficiente heterorrasgo-monométodo: que implica la correlación establecida entre distintos constructos medidas con el mismo método.
22
3. VALIDACIÓN DE CONSTRUCTO 3.1. La matriz multimétodo-multirrasgo
Se quieren medir tres constructos: Razonamiento Numérico (RN), Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con pruebas de distinto formato: Verdadero-Falso (V-F); y Elección múltiple (E-M). En la tabla se presenta las correlaciones obtenidas entre los distintos constructos medidos con ambos métodos método 1 (V-F) método 2 (EM) RN FE RA FN Método 1 (V-F) ,95 ,20 ,90 ,30 ,28 ,92 Método 2 (EM) ,31 ,40 ,93 ,26 ,87 ,33 ,37 ,94 ,43 ,84 ,88 Se quieren medir tres constructos: Razonamiento Numérico (RN), Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con pruebas de distinto formato: Verdadero-Falso (V-F); y Elección múltiple (E-M). En la tabla se presenta las correlaciones obtenidas entre los distintos constructos medidos con ambos métodos.
23
3. VALIDACIÓN DE CONSTRUCTO 3.1. La matriz multimétodo-multirrasgo
1. La fiabilidad hace referencia al mismo constructo medido con el mismo método (diagonal). Así por ejemplo, la fiabilidad de razonamiento numérico medido con el método 1 es de 0,95, mientras que con el método 2 es de 0,93 Mét. 1 (V-F) Mét. 2 (EM) RN FE RA Mét. 1(V-F) ,95 ,20 ,90 ,30 ,28 ,92 ,31 ,40 ,93 ,26 ,87 ,33 ,37 ,94 ,43 ,84 ,88 Si recordamos la fiabilidad hace referencia al mismo constructo medido con el mismo método. Que son precisamente los valores que se encuentran en la diagonal. Así por ejemplo, la fiabilidad de razonamiento numérico medido con el método 1 es de .95, mientras que con el método 2 es de .93; y lo mismo para Factor espacial y razonamiento abstracto.
24
3. VALIDACIÓN DE CONSTRUCTO 3.1. La matriz multimétodo-multirrasgo
La validez convergente o coeficiente monorrasgo-heterométodo hacía referencia a que se midiera el mismo constructo pero con distinto método (verde). En teoría, estas correlaciones deberían ser altas y significativas. Así por ejemplo, el razonamiento numérico medido con los métodos 1 y 2 obtiene una correlación de 0,90. Mét. 1 (V-F) Mét. 2 (EM) RN FE RA Mét. 1(V-F) ,95 ,20 ,90 ,30 ,28 ,92 ,31 ,40 ,93 ,26 ,87 ,33 ,37 ,94 ,43 ,84 ,88 La validez convergente hacía referencia o coeficiente monorrasgo-heterométodo, hacía referencia a que se midiera el mismo constructo pero con distinto método. En la tabla son los valores que aparecen en verde. En teoría estos correlaciones deberían ser altas y significativas. Así por ejemplo, el razonamiento numérico medido con el método 1 y 2 obtiene un valor de .90.
25
3. VALIDACIÓN DE CONSTRUCTO 3.1. La matriz multimétodo-multirrasgo
3. la validez discriminante hace referencia a las correlaciones entre distintos rasgos con el mismo método (rojo). En teoría, éstas han de ser bajas, y menores que la fiabilidad y la validez convergente. Así, por ejemplo, la correlación entre RN y FE medidos con el método 1 es de 0,20. Mét. 1 (V-F) Mét. 2 (EM) RN FE RA Mét. 1(V-F) ,95 ,20 ,90 ,30 ,28 ,92 ,31 ,40 ,93 ,26 ,87 ,33 ,37 ,94 ,43 ,84 ,88 Por último, la validez discriminante, hace referencia a las correlaciones obtenidas entre distintos métodos con el mismo rasgo. En teoría estas han de ser bajas, y menores que los coeficientes de fiabilidad y los de validez convergente. Así por ejemplo, la correlación entre el razonamiento numérico y el factor espacial medido con el método 1, es de .20.
26
3. VALIDACIÓN DE CONSTRUCTO
3.1. La matriz multimétodo-multirrasgo Un problema es que no hay criterio estadístico para determinar si existe o no validez convergente y discriminante. Actualmente, se suele investigar este aspecto mediante procedimientos derivados del Análisis Factorial Confirmatorio. Uno de los problemas que nos encontramos es que no existe criterio estadístico para determinar si hay o no, validez convergente y discriminante, a lo sumo se puede decir que parece haber cierta videncia sobre ello. Actualmente se suele investigar este aspecto mediante procedimientos derivados del análisis factorial confirmatorio.
27
3. VALIDACIÓN DE CONSTRUCTO
3.2. El análisis factorial Análisis Factorial: es una de las técnicas más utilizadas para determinar la estructura interna y externa del test en relación con el constructo. El objetivo es explicar un conjunto de variables observadas (ítems de un test, por ejemplo) mediante un número menor de variables latentes inobservables denominadas factores (dimensiones teóricas). Son estos factores los que permiten dar una interpretación teórica mediante la forma en que se agrupan los ítems en función de su contenido, que deberían de coincidir con las dimensiones teóricas utilizadas en la construcción de la escala. El análisis factorial es una de las técnicas más utilizadas en para determinar la estructura interna del constructo. El objetivo del análisis factorial es explicar un conjunto de variables observadas (ítems de un test, por ejemplo) mediante un número menor de variables latentes inobservables denominadas factores. Son precisamente, estos factores los que permite dar una interpretación teórica mediante la forma en que se agrupan los ítems, en función de su contenido. En teoría estas agrupaciones deberían coincidir con las dimensiones teóricas utilizadas a la hora de construir la escala.
28
Exploratorio versus Confirmatorio:
3. VALIDACIÓN DE CONSTRUCTO 3.2. El análisis factorial Exploratorio versus Confirmatorio: AFE: no se tiene absoluta certeza de la dimensionalidad de la escala. Tras ejecutar un AFE, obtenemos una solución sobre el número de factores o dimensiones en las que se pueden resumir las variables observadas. AFC: tenemos ciertas hipótesis sobre el número de dimensiones y la forma en que se agrupan los ítems. Reporta índices de ajuste que nos ayudan a decidir si dicha estructura se reproduce en los datos. Conviene diferenciar entre Análisis Factorial Exploratorio y confirmatorio. Cuando no se tiene certeza de la dimensionalidad de la escala es habitual utilizar el Análisis Factorial Exploratorio, que a la postre no ofrecerá una solución sobre el número de factores en los que se puede resumir las variables observadas. Si por el contrario, tenemos cierta hipótesis sobre el número de dimensiones y la forma en que se agrupan los ítems, podemos utilizar el AFC, que reportará índices de ajuste que nos ayuden a determinar si dicha estructura se reproduce o no en los datos.
29
3. VALIDACIÓN DE CONSTRUCTO 3.2. El análisis factorial
1. Todos los factores están correlacionados o no. 2. Todas las variables observadas están afectadas por todos los factores latentes. 3. Los errores no correlacionan entre si.
30
APA (1999): evidencia basada en la relación con otras variables.
4. VALIDACIÓN REFERIDA AL CRITERIO Supone obtener evidencias acerca del grado en que las puntuaciones obtenidas en el test pueden utilizarse eficazmente para hacer inferencias sobre el comportamiento real del participante en un criterio que no se puede medir directamente. APA (1999): evidencia basada en la relación con otras variables. la validación referida al criterio implica obtener evidencias acerca del grado en que las puntuaciones obtenidas en el test pueden utilizarse de manera eficaz para hacer inferencias sobre el comportamiento del participante en un criterio que no se puede medir directamente. Para la American Psychological Association (1999) se trata de un tipo de evidencia basada en la relación con otras variables
31
4. VALIDACIÓN REFERIDA AL CRITERIO
Posibles diseños: varían en función del momento en que se recogen los datos del test (ejemplo: cuestionario para valorar grado de depresión) y criterio (ejemplo: sintomatología depresiva según DSM-V). Validez predictiva: el criterio se mide después de haber aplicado el test. Objetivo: predecir las puntuaciones futuras en el criterio a partir de las obtenidas en el test. Ejemplo: ¿Tendrá el participante un trastorno depresivo? uso predictivo del test. 2. Validez concurrente: test y criterio se miden al mismo tiempo. Ejemplo: ¿Tiene el participante, actualmente, un trastorno depresivo? uso diagnóstico del test. 3. Validez retrospectiva: el criterio se mide antes de administrar el test. Ejemplo: ¿Tuvo el participante un trastorno depresivo hace 2 años? en la validación referida al criterio existen distintos diseños que se pueden utilizar. Estos varían en función del modo en que se ha recogido los datos del test y del criterio. Normalmente se diferencia entre: validez predictiva, cuando se aplica el test y posteriormente se recogen los datos relativos al criterio. El objetivo es predecir las puntuaciones futuras en el criterio. Un ejemplo de validez predictiva puede hacer referencia a cuando nos preguntamos por si un participante tendrá en el futuro algún trastorno depresivo? En este caso el criterio hace referencia a la sintomatología depresiva. Normalmente, la validez predictiva se utiliza cuando se hace algún uso predictivo del test. Validez concurrente; cuando los datos del test y criterio se han recogido al mismo tiempo. En este caso, podríamos plantearnos si el participante sufre, en la actualidad, algún trastorno depresivo. En este caso, estamos haciendo un uso diagnóstico del test. Y validez retrospectiva, cuando los datos del criterio se ha recogido antes de administrar el test. Nos interesa cuando nos preguntamos en qué grado el participante poseyó un determinado rasgo en el pasado. La validación predictiva es más difícil de llevar a cabo ya que es posible que se pierdan participantes de la muestra al implicar cierto tiempo de espera.
32
4. VALIDACIÓN REFERIDA AL CRITERIO
Fases: Definir claramente el criterio que se quiere medir. Identificar el indicador o indicadores a utilizar como medidas del criterio. Seleccionar una muestra de participantes representativa. Aplicar el test predictor y obtener una puntuación para cada participante. Obtener una medida de cada participante en el criterio. Determinar el grado de relación entre las puntuaciones obtenidas en test y criterio. Los pasos por los que se puede llevar a cabo un proceso de validación de criterio son los siguientes: Definir claramente el criterio que se quiere medir. Identificar el indicador o indicadores a utilizar como medidas del criterio. Seleccionar una muestra de participantes representativa. Aplicar el test y obtener una puntuación para cada participante. Obtener una medida de cada participante en el criterio. Determinar el grado de relación entre las puntuaciones obtenidas.
33
4. VALIDACIÓN REFERIDA AL CRITERIO
4.1. El problema de la selección y medición del criterio Un problema importante es la forma en que vamos a definir y delimitar el criterio: Criterio o indicador simple de fácil delimitación: Un test de selección de vendedores de enciclopedias (criterio de éxito = 10 enciclopedias/semana). Criterio o indicador complejo (delimitación más complicada): Selección de profesor de Psicometría (criterio de éxito = ¿conocimiento materia?¿Habilidades sociales?¿publicaciones?, etc.). Un elemento importante, es la forma en que se va a definir y medir el criterio. En este sentido, a veces encontramos que es posible definir el criterio de manera fácil. Así por ejemplo, si estamos en una selección de vendedores de enciclopedias, un criterio adecuado podría ser que venda 10 unidades por semana. Sin embargo, en la mayoría de las ocasiones, el problema es más complejo. Así por ejemplo, si estamos interesados en ocupar una plaza de profesor de Psicometría el criterio de éxito puede ser más complejo: ¿su conocimiento sobre la materia?¿la empatía con los alumnos?¿sus habilidades sociales?,..., en cualquier caso, es algo que buenamente podrían valorar ustedes. A pesar de todo ello, en cualquiera de los casos conviene dejar claro que todos los indicadores son parciales y no ofrecen una comprensión completa del criterio. Todos los indicadores son parciales y no ofrecen una comprensión completa del criterio
34
Fiables: se han de utilizar indicadores estables en el tiempo.
4. VALIDACIÓN REFERIDA AL CRITERIO 4.1. El problema de la selección y medición del criterio Para la selección del criterio, Thorndike y Hagen (1989) recomiendan indicadores que sean: Relevantes: que estén relacionados con el criterio; sin embargo, no existen tests estadísticos que nos permitan concluir en este sentido se puede recurrir a jueces expertos. Libres de sesgo: utilizar variables que no afecten de manera diferencial entre grupos. Fiables: se han de utilizar indicadores estables en el tiempo. Accesibles En cualquier caso, en la selección del criterio según Thorndike y Hagen, se recomienda que los indicadores han de cumplir algunos requisitos mínimos como son: A) que sean relevantes. Es decir que estén relacionados con el criterio. El problema es que no se dispone de ninguna prueba estadística que permita concluir en este sentido, por ello, se suele recurrir a juicios de expertos. Imaginemos que se está evaluando un prueba de matemáticas, y además de la competencia en las mismas en la nota influye la presentación o caligrafía. Puede darse el caso de que variables no relacionadas estén influyendo en la puntuación final. B) Que estén libres de sesgo: hace referencia a que, en la medida de lo posible, se controlen variables que puedan afectar diferencialmente a distintos grupos. C) que sean Fiables: es decir que se utilicen indicadores estables en el tiempo. D) y finalmente accesibles ya que ningún sentido tendría utilizar indicadores que a la postre no se puedan registrar.
35
4. VALIDACIÓN REFERIDA AL CRITERIO
4.1. El problema de la selección y medición del criterio Cuando operativizamos el coeficiente de validez mediante la correlación test-criterio, aparecen problemas ligados a la naturaleza de la correlación: Fiabilidad del predictor y del criterio: bajos coeficientes de fiabilidad del test y del criterio rebajan los valores del coeficiente de validez. Restricción del rango: el coeficiente de validez puede verse reducido debido a restricciones en la variabilidad de la muestra (por ejemplo, en selección de personal ya que se eligen a los participantes con puntuaciones altas). Dicotomización en el test, criterio o ambas: reducen los valores del coeficiente de validez. Por otro lado, cuando operativizamos el coeficiente de validez mediante la correlación entre test y criterio, surgen problemas debido a la naturaleza de la correlación: 1. En primer lugar, si la fiabilidad tanto del test como del criterio son bajas entonces el coeficiente de validez también será bajo. Si recordamos del capítulo anterior el valor máximo del coeficiente de validez es el índice de fiabilidad. 2. En segundo lugar, la validez puede verse reducida cuando la variabilidad de la muestra es pequeña. Este caso es especialmente llamativo en la validación de los tests de selección de personal en los que se seleccionan sólo participantes con puntuaciones altas en el test. 3. Por último, la dicotomización en el test, criterio o ambas también reduce el coeficiente de validez.
36
4. VALIDACIÓN REFERIDA AL CRITERIO
4.2. Procedimientos estadísticos utilizados en la validación referida al criterio Coeficiente de validez Correlación entre las puntuaciones del test y del criterio (Crocker y Algina, 1986; Robinson y Stafford, 2006). Dependiendo del número de tests y criterios Martínez-Arias (1995) diferencia entre: Un predictor y un criterio (punto 5, tema 6.1): análisis de correlación y regresión simple. Varios predictores y un criterio (punto 1, tema 6.2): análisis de correlación y regresión múltiple, análisis discriminante (criterios cualitativos), regresión logística (criterio dicotómico). Varios predictores y varios criterios: análisis de regresión multivariante, análisis de correlación canónica (técnicas complejas que difícilmente conducen a resultados directos). Validez y utilidad de las decisiones (punto 2, tema 6.2): investigación operativa (técnicas maximax y minimax) (Van der Linden, 1991) optimizar las decisiones tomadas con el test. - la forma más habitual de operativizar el coeficiente de validez es mediante la correlación entre las puntuaciones del test y del criterio. Sin embargo dependiendo del número de tests y de criterios Martínez Arias (1995), realiza la siguiente clasificación. 1. Cuando sólo hay un único predictor y un criterio, los procedimientos analíticos más comunes son el análisis de correlación y la regresión simple. 2. Cuando hay varios predictores y un solo criterio, se suele recurrir al análisis de correlación y la regresión múltiple. Cuando los criterios son de naturaleza cualitativa entonces se puede aplicar el análisis discriminante. Y cuando el criterio se encuentra dicotomizado (como por ejemplo padecer o no una determinada categoría diagnóstica) entonces se puede recurrir a la regresión logística. 3. El tercer caso, se trata cuando tenemos varios predictores y varios criterios. En estos casos, se recurre a la regresión múltiple y correlación canónica. Estas técnicas raramente se utilizan ya que son complejas y difícilmente conducen a resultados fáciles de interpretar. 4. Por último cuando abordamos la validez desde la utilidad de las decisiones, tenemos toda la estadística derivada de la investigación operativa, concretamente destacan los maximin y minimax que tratan de optimizar las decisiones tomadas con el test.
37
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.1. El coeficiente de validez Correlación y regresión simple: ¿hasta qué punto podemos predecir las puntuaciones en el criterio de un participante, dada su puntuación en el test? La fórmula para obtener la correlación entre test y criterio viene definida por la siguiente expresión: Importante: el tipo de correlación dependerá del tipo de variable de test y criterio. Como hemos comentado anteriormente, la correlación y regresión son las formas habituales de operativizar el coeficiente de validez. La pregunta a la que intentamos dar respuesta es ¿hasta qué punto podemos predecir la puntuación en el criterio de un participante dada su puntuación en el test? La fórmula para obtener la correlación entre test y criterio viene definida por la siguiente expresión
38
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.1. El coeficiente de validez Ejemplo: supongamos que se quiere llevar a cabo un estudio de validación relativa al criterio de un test de aptitud mecánica (X). Para ello, se aplica el test elaborado a una muestra de 6 participantes. Estos participantes son evaluados posteriormente por sus supervisores, en una escala de 0 a 10, en función del tiempo empleado en reparar un coche con la misma avería (Y). Los resultados son los siguientes: Calcular el coeficiente de validez. X Y 12 9 14 7 15 10 8 5 4
39
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.1. El coeficiente de validez X Y XY X2 Y2 12 9 108 144 81 14 7 98 196 49 15 10 150 225 100 8 56 64 5 45 25 4 16 61 43 473 711 335 Obtenemos un valor de 0,73. Dado que el valor máximo del coeficiente de validez es 1, se puede decir que el test tiene una buena capacidad predictiva.
40
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Conocida la correlación, se utiliza el modelo de regresión lineal para predecir las puntuaciones en el criterio (Y) a partir de las puntuaciones en el test (X). La función lineal viene definida por: Una vez que conocemos la relación entre test y criterio, se suele recurrir al modelo de regresión lineal para predecir las puntuaciones en el criterio (Y) a partir de las puntuaciones del test (X). La función lineal por la que se estiman los valores del criterio es igual a “a + b*X” donde a es el valor esperado de Y cuando X =0; y b es la cantidad de cambio en Y por cada unidad de cambio en X.
41
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal 3. La diferencia entre (XY) y (XY´) determina el error de predicción distancia vertical entre ambos puntos. a Xi Yi P(X,Y) = valor de Y observado para Xi P(X,Y’) = valor de Y pronosticado para Xi por la función lineal Y’i e = Yi - Y’i Todo ello, se puede representar en la siguiente gráfica. 1. El punto en el que la línea corta al eje Y es la ordenada en el origen y representa el valor esperado de Y, cuando X vale cero. Para un valor dado de X, tenemos dos puntos diferentes (X,Y) y (X,Y`) pronosticado por la función lineal. Dicha función predice un valor de Y, que no se corresponde con el valor real. Precisamente, al diferencia entre ambos valores determina el error en la predicción, que es la distancia vertical entre ambos puntos. Precisamente de lo que se trata es de ajustar una línea que haga mínimo los errores. 2. Para cada Xi, tenemos dos puntos (XY), y (X, Y’) pronosticado. Es decir, dicha función predice un valor de Y que no se corresponde con el real. 1. a = punto donde la línea corta al eje Y, o valor esperado de Y cuando X vale 0.
42
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Ecuaciones de regresión Fórmulas para calcular los parámetros (a y b) de la ecuación de regresión: - La pendiente de la recta de regresión puede obtenerse a partir del coeficiente de validez y de las desviaciones típicas tanto del test como del criterio. Y una vez calculado el valor de la pendiente puede obtenerse la ordenada en el origen. Y con todo ello, se puede derivar la ecuación de regresión para pronosticar el valor en el criterio a partir de una puntuación en X.
43
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Ecuaciones de regresión En puntuaciones diferenciales la ordenada en el origen pasa por el punto (0,0) Yi a Y`i Xi a =(0,0) Puntuaciones directas Puntuaciones diferenciales También podemos expresar la recta de la ecuación en puntuaciones diferenciales que a diferencia de en puntuaciones directas, pasa por el origen de las coordenadas. Es decir, se trata de un recta paralela a la obtenida en puntuaciones directas, y por tanto con la misma pendiente. Hay veces que el psicólogo puede estar interesado en hacerlas en puntuaciones típicas, con media cero y desviación típica 1. También pasa por el origen de coordenadas, y teniendo en cuenta que en puntuaciones típicas la desviación típica es la unidad, la pendiente de la recta de regresión será el coeficiente de validez. En este caso esta recta no es paralela a las anteriores, ya que las pendientes no coinciden.
44
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Ecuaciones de regresión En puntuaciones típicas la pendiente de la recta es el coeficiente de validez Ejemplo: con los datos del ejercicio anterior, calcular la ecuación de regresión en puntuaciones directas, diferenciales y típicas. También podemos expresar la recta de la ecuación en puntuaciones diferenciales que a diferencia de en puntuaciones directas, pasa por el origen de las coordenadas. Es decir, se trata de un recta paralela a la obtenida en puntuaciones directas, y por tanto con la misma pendiente. Hay veces que el psicólogo puede estar interesado en hacerlas en puntuaciones típicas, con media cero y desviación típica 1. También pasa por el origen de coordenadas, y teniendo en cuenta que en puntuaciones típicas la desviación típica es la unidad, la pendiente de la recta de regresión será el coeficiente de validez. En este caso esta recta no es paralela a las anteriores, ya que las pendientes no coinciden.
45
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Ecuaciones de regresión Ecuación de regresión en puntuaciones directas: Para calcular la ecuación de regresión, es necesario calcular tanto la pendiente de regresión como la ordenada en el origen. Una vez calculados ambos parámetros se pueden pronosticar los valores en el criterio para cada uno de los valores en el test. En nuestro ejemplo, la ecuación de regresión viene definida por Y, igual al 3.15 más 0.395X. Y a partir de ello, podemos calcular los valores pronosticados de Y a partir de los de X.
46
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Ecuaciones de regresión 2. Ecuación de regresión en puntuaciones diferenciales: 3. Ecuación de regresión en puntuaciones típicas: Para calcular la ecuación de regresión, es necesario calcular tanto la pendiente de regresión como la ordenada en el origen. Una vez calculados ambos parámetros se pueden pronosticar los valores en el criterio para cada uno de los valores en el test. En nuestro ejemplo, la ecuación de regresión viene definida por Y, igual al 3.15 más 0.395X. Y a partir de ello, podemos calcular los valores pronosticados de Y a partir de los de X. Ejemplo: calcular, en puntuaciones directas, el valor pronosticado en el criterio (Y) para cada participante y su error asociado.
47
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Ecuaciones de regresión Si al valor real de Y le restamos el pronosticado, obtendremos el error de pronóstico. Por ejemplo, para este mismo participante, el error de pronóstico asociado será 9 - 7,89 = 1,11 A un participante que obtuvo X=12, se le pronostica Y’=7,89 X Y Y’ =a+BX e =Y-Y’ 12 9 Yx=12=3,15+0,395*12=7,89 9-7,89=1,11 14 7 Yx=14=3,15+0,395*14=8,68 7-8,68=-1,68 15 10 Yx=15=3,15+0,395*15=9,08 10-9,08=0,92 8 Yx=7=3,15+0,395*7=5,91 8-5,91=2,09 5 Yx=9=3,15+0,395*9=6,71 5-6,71=-1,71 4 Yx=4=3,15+0,395*4=4,73 4-4,73=-0,73 A continuación podríamos estimar el valor que a partir de las puntuaciones en el test, se les pronosticaría a los participantes en el criterio. Así por ejemplo, para una X igual a 12, se le pronostica al participante en el criterio un valor de Para una de 14 de 8.68;...; y para una X de 4 se le pronostica un valor en Y de 4.73. A partir de lo que podríamos calcular el error de estimación, que hace referencia a la diferencia entre el valor real y el pronosticado en el criterio a partir del test.
48
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal La varianza residual y el error típico de estimación El error de estimación es la diferencia entre el valor real obtenido por un participante en el criterio y el pronosticado por la función lineal: El promedio de los errores de todos los participantes al cuadrado es la varianza residual o varianza del error: El error de estimación hace referencia a la diferencia entre el valor obtenido por un participante en el criterio y el pronosticado a partir de la función lineal: Al promedio de los errores de todos los participantes al cuadrado, se le denomina varianza residual o varianza error y a su desviación típica error típico de estimación.
49
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal La varianza residual y el error típico de estimación La raíz cuadrada de la varianza residual o varianza del error (es decir, su desviación típica) es el error típico de estimación: Ejemplo: con los datos anteriores, calcular el error típico de estimación (utilizando la primera fórmula) y comprobar la siguiente igualdad: A mayor rXY mejor menor será cada error individual menor será el error típico de estimación (SY.X) El error de estimación hace referencia a la diferencia entre el valor obtenido por un participante en el criterio y el pronosticado a partir de la función lineal: Al promedio de los errores de todos los participantes al cuadrado, se le denomina varianza residual o varianza error y a su desviación típica error típico de estimación.
50
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal La varianza residual y el error típico de estimación X Y Y’ e=Y-Y’ e2 Y2 Y’2 12 9 7,89 1,11 1,23 81 62,25 14 7 8,68 -1,68 2,82 49 75,34 15 10 9,08 0,92 0,85 100 82,45 8 5,91 2,09 4,37 64 34,93 5 6,71 -1,71 2,92 25 45,02 4 4,73 -0,73 0,53 16 22,37 61 43 12,72 335 322,36
51
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal La varianza residual y el error típico de estimación Error típico de estimación Comprobación de la igualdad Con todos estos datos, podemos calcular tanto la varianza de las puntuaciones pronosticadas, como la varianza de los errores y por tanto el error típico de estimación. A partir de todos los errores de estimación, se puede calcular el error típico de estimación.
52
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Intervalos de confianza Debido a los errores de estimación, es más conveniente hacer estimaciones por intervalos que puntuales. Ejemplo: con los datos anteriores, calcular en qué intervalo se encontrará la puntuación estimada en el criterio (Y) para una persona que obtuvo X=13 (NC = 95%). Error típico de estimación Debido a los errores de estimación, más que estimaciones puntuales es conveniente hacerlas por intervalos. Para ello, al igual que en los capítulos de fiabilidad en los que se establecían los intervalos confidenciales para estimar la puntuación verdadera, las fases que hay que seguir son: 1. Determinar el nivel de confianza con el que vamos a trabajar así como su puntuación típica asociada. 2. Calcular el error típico de estimación. 3. Determinar el error máximo que estamos dispuestos a asumir. 4. Estimar la puntuación en el test mediante la ecuación de regresión. 5. Y finalmente, establecer el intervalo de confianza en torno a la puntuación estimada.
53
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.2. El modelo de regresión lineal Intervalos de confianza Debido a los errores de estimación, más que estimaciones puntuales es conveniente hacerlas por intervalos. Para ello, al igual que en los capítulos de fiabilidad en los que se establecían los intervalos confidenciales para estimar la puntuación verdadera, las fases que hay que seguir son: 1. Determinar el nivel de confianza con el que vamos a trabajar así como su puntuación típica asociada. 2. Calcular el error típico de estimación. 3. Determinar el error máximo que estamos dispuestos a asumir. 4. Estimar la puntuación en el test mediante la ecuación de regresión. 5. Y finalmente, establecer el intervalo de confianza en torno a la puntuación estimada. Error típico de estimación calculado en el ejercicio anterior
54
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.3. Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test Coeficiente de determinación (C.D.) Equivale al coeficiente de validez al cuadrado. Representa la proporción de varianza de las puntuaciones de los participantes en el criterio (Y) que se puede pronosticar a partir del test (X). Cuando la varianza del error es pequeña, los valores pronosticados de Y están próximos a los reales el error típico de estimación será pequeño y, por tanto, el C.D. tomará valores próximos a uno. Los posibles valores del C.D. se encuentran entre 0 y 1. Para interpretar las evidencias de validez de criterio, nos valemos de diversos índices. Entre ellos destaca el Coeficiente de determinación que equivale al coeficiente de validez al cuadrado, y representa la proporción de varianza de las puntuaciones de los participantes en el criterio que se puede pronosticar a partir del test. El coeficiente de determinación está acotado entre cero y uno. Ello implica que cuando la varianza error, es pequeña lógicamente los valores pronosticados estarán próximos a los reales, y por tanto el error típico de estimación será pequeño y por tanto el coeficiente de determinación tomará valores próximos a uno. En resumen, podemos decir que el CD, expresa la proporción de variación de Y ligada a X, o determinada por X, explicada por X, o que se puede predecir a partir de X. Expresa la proporción (o porcentaje si se multiplica por 100) de variación de Y ligada a X, determinada por X, explicada por X, o que se puede predecir a partir de X.
55
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.3. Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test Coeficiente de alienación (C.A.) Indica la proporción que representa el error típico de estimación respecto a la desviación típica de las puntuaciones en el criterio. Es la inseguridad, el azar que afecta a los pronósticos. Los posibles valores del C.A. se encuentran entre 0 y 1. Cuando la varianza del error es alta, implica que los valores pronosticados de Y’ están lejanos de los reales el error típico de estimación será elevado y por tanto el C.A tomará valores próximos a uno. Otro de estos índices, complementario al anterior es el Coeficiente de alienación que representa el error típico de estimación respecto a la desviación típica de las puntuaciones en el criterio. Al igual que en el caso anterior se encuentra acotado en el intervalo 0_1. En este caso, cuando la varianza error es alta, implica que los valores pronosticados de Y estarán lejos de los reales; ello implica que el error típico de estimación será elevado y por tanto el coeficiente de alienación tomará valores próximos a uno. Si observamos la fórmula, será igual a uno, cuando el coeficiente de validez sea cero. Es decir, cuando indique que no existe ningún tipo de relación entre test y criterio. En síntesis, y al contrario que en caso anterior, expresa la proporción de variación de Y que no está ligada a X, determinada por X, explicada por X, o que no se puede predecir a partir de X. Es decir, informa sobre la inseguridad o azar que afecta a los pronósticos. C.A.2 expresa la proporción (o porcentaje si se multiplica por 100) de variación de Y que no está ligada a X, determinada por X, explicada por X, o que no se puede predecir a partir de X.
56
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.3. Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test Coeficiente de valor predictivo (C.V.P.) Complementario al C.A., es otra forma de expresar la capacidad del test para pronosticar el criterio. Los posibles valores del C.V.P. se encuentran entre 0 y 1. Cuanto mayor sea el C.A., menor será la capacidad del test para pronosticar el criterio. Ejemplo: con los datos anteriores, calcular el C.D., el C.A. y sus complementarios. Interpretar los resultados. 3. Finalmente, el CVP, que es complementario al CA, es otro forma de expresar la capacidad del test para pronosticar el criterio. Al igual que en los casos anteriores, está acotado entre 0 y 1. Por tanto, cuanto mayor sea el CA menor será la capacidad predictiva del test para pronosticar el criterio.
57
5. VALIDACIÓN CON UN ÚNICO INDICADOR Y UN SOLO PREDICTOR DEL CRITERIO
5.3. Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test El 52% de las puntuaciones en el criterio se podría pronosticar a partir del test; mientras que el resto, el 48%, equivale a la variabilidad de las puntuaciones en el criterio que el test no explica. 0,69 es la inseguridad en el pronóstico; mientras que el resto, 0,31, es la seguridad en el pronóstico o la capacidad del test para pronosticar el criterio.
58
6. BIBLIOGRAFÍA COMENTADA
1. Barbero, I., García, E. Vila, E., y Holgado, F. P. (2010). Psicometría: problemas resueltos. Madrid: Sanz y Torres. Se trata de un libro de ejercicios y problemas en el que se incluye el desarrollo de la solución. El alumnado podrá completar desde un punto de vista aplicado los conceptos y contenidos vistos en la parte teórica, así como adquirir las destrezas necesarias para la resolución de problemas. 2. Barbero, I. , Vila, E. y Holgado, F.P. (2010). Psicometría. Madrid: Sanz y Torres. En el capítulo 6 se incluye la definición y evolución del concepto de validez, así como los principales aspectos relacionados con la validez de contenido, constructo y criterio. 3. Martínez Arias, R. (1995). Psicometría: teoría de los tests psicológicos y educativos. Madrid: Síntesis. Se tratan los principales aspectos relacionados con la validez tanto en su vertiente teórica como aplicada. Tras una presentación conceptual de los tipos tradicionales de validez (capítulo 12), profundiza en los aspectos formales de la validez relativa al criterio (capítulos 13 al 15) y de la validez de constructo (capítulos 16 y 17).
59
6. BIBLIOGRAFÍA COMENTADA
4. Meliá, J. L. (2000). Teoría de la fiabilidad y la validez. Valencia: Cristóbal Serrano. En el capítulo 11, se realiza un recorrido por algunas de las definiciones tradicionales de la validez. También se presentan las implicaciones de los tipos tradicionales de validez así como la relación existente entre la fiabilidad y la validez. El capítulo termina con un apartado en el que realizan algunas consideraciones generales sobre la importancia de la validez. 5. Paz, M. D. (1996). Validez. En J. Muñiz (Coord.), Psicometría. Madrid: Síntesis. Este capítulo comienza con una presentación de la evolución histórica del concepto de validez. Posteriormente se abordan, a nivel tanto conceptual como aplicado, los aspectos más relevantes de la validez de constructo, de criterio y de contenido.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.