Tema 6.1 Evaluación del instrumento de medida:

Tema 6.1 Evaluación del instrumento de medida:
PSICOMETRÍA Tema 6.1 Evaluación del instrumento de medida: VALIDEZ i Salvador Chacón Moscoso Susana Sanduvete Chaves Agradecemos a Francisco Pablo Holgado Tello su inestimable colaboración en la elaboración de este material

EVALUACIÓN DEL INSTRUMENTO DE MEDIDA: VALIDEZ (I)
TEMA 6.1. EVALUACIÓN DEL INSTRUMENTO DE MEDIDA: VALIDEZ (I) 1. Introducción al concepto de validez y su evolución histórica 2. Validación de contenido 3. Validación de constructo 3.1. La matriz multimétodo-multirrasgo 3.2. El análisis factorial 4. Validación referida al criterio 4.1. El problema de la selección y medición del criterio 4.2. Procedimientos estadísticos utilizados en la validación referida al criterio 5. Validación con un único predictor y un solo indicador del criterio 5.1. El coeficiente de validez 5.2. El modelo de regresión lineal Ecuaciones de regresión La varianza residual y el error típico de estimación Intervalos de confianza 5.3. Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test Coeficiente de determinación Coeficiente de alineación Coeficiente de valor predictivo Ejemplo 6. Bibliografía básica El tema 6, es el tercer tema del bloque dedicado a la TCT, aborda el concepto de validez y cómo poder estimarla. La organización del tema es la recomendada por el Instituto Universitario de Educación a Distancia para la organización de los contenidos en un proceso de enseñanza-aprendizaje a distancia. Concretamente, en primer lugar aparecen las orientaciones didácticas donde se marcarán los objetivos, y se resalta la importancia del tema en el conjunto de la asignatura. A continuación aparece, un bloque central con los contenidos específicos del tema, y para finalizar veremos algunos ejercicios de autocomprobación y se mostrará bibliografía relevante comentada.

INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTORICA
EVOLUCIÓN HISTÓRICA: Según los “Standards for educational and psychological tests and manuals” (APA, AERA, NCME, 1966, 1985): la validez hace referencia al grado en que se mide aquello que se pretende medir, pudiéndose diferenciar entre validez de contenido, de criterio y de constructo visión tripartirta predominante Messick (1989), amplía el concepto: a) abre el concepto de medida no limitándolo a las puntuaciones del test, incluye las puntuaciones obtenidas en cualquier otro instrumento de evaluación; b) destaca la importancia de considerar la utilidad de las decisiones y consecuencias derivadas del procedimiento de medida, apareciendo el concepto de validez consecuencial; c) enfoque integrador del macroconcepto de validez en torno a la validez de constructo. Según los Standards for educational and psychological tests and manuals en sus versiones de 1965 y 1985, la validez hace referencia al grado en que se mide aquello que se pretende medir, pudiéndose diferenciar entre validez de contenido, criterio y constructo. Esta ha sido la visión tripartita predominante durante largo período de tiempo. Posteriormente Messick (1989), amplía el concepto de validez introduciendo nuevos elementos: a) en primer lugar abre el concepto de medida, no limitándolo a las puntuaciones del tests, sino que también incluye las puntuaciones obtenidas por cualquier otro instrumento de evaluación; b) en segundo lugar entiende la importancia de considerar la utilidad de las decisiones y las consecuencias derivadas del procedimiento de medida, de tal forma que llega a considerar que la validación también implica una evaluación de las consecuencias de la medida, de hecho ha sido tan relevante esta aportación que ha dado lugar a un nuevo tipo de evidencia de validez denominada validez consecuencial; y c) y en tercer lugar presenta un enfoque integrador del macro-concepto de validez en torno a la validez de constructo.

EVOLUCIÓN HISTÓRICA: “…la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluación empírica de hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada” (Messick, pág. 741) En palabras de Messick: “la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluación empírica de hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada.

Principal aportación de Messick (1994)
INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTORICA Principal aportación de Messick (1994) Ruptura con la visión tripartita de la validez. La validez de constructo asume la relevancia y representatividad de los aspectos medidos (v. contenido) así como las relaciones con otros criterios externos de interés (v. criterio). Entendemos la validez como concepto unitario donde la Validez de constructo es el aspecto central donde convergen criterios científicos (representatividad y utilidad) y valores sociales (consecuencias de la aplicación de la medida) La principal aportación de Messick (1994), radica en que rompe con la visión tripartita de validez. En este sentido, podríamos decir que la validez de constructo asume la relevancia y representatividad de los contenidos medidos (validez de contenido), así como las relaciones entre las puntuaciones de los instrumentos de medida con criterios externos de interés (validez de criterio), en tanto dichas conexiones deberían tener sentido teórico. Por tanto, al referirnos a la validez, lo hacemos a un concepto unitario que integra la adecuación, significado, utilidad y relevancia de las inferencias basadas en las puntuaciones de los instrumentos de medida. Todo ello se apoya sobre la validez de constructo como aspecto central donde convergen criterios científicos (representatividad y utilidad) y valores sociales (consecuencias de la aplicación de la medida)

En Teoría de tests, la validez, hace referencia a la adecuación de las inferencias realizadas a partir de las puntuaciones del test  Validación; proceso mediante el cual el constructor, o el usuario de los tests, recoge la evidencia empírica necesaria para apoyar las inferencias que se van a realizar; entendiendo por evidencia tanto los datos, observaciones y hechos, como los argumentos que permitan apoyar y sustentar esos hechos. Según los estándares (1999), vamos a entender: -La validez como un concepto unitario La validación como un proceso continuo que permitirá recoger evidencias sobre la adecuación de las inferencias - Específicamente, en Teoría de Tests, vamos a entender que el concepto de validez va a hacer referencia a la adecuación de las inferencias realizadas a partir de las puntuaciones de los test. En este sentido, entenderemos la validación, como el proceso mediante el cual, el constructor, o el usuario de los tests, recogen la evidencia empírica necesaria para apoyar las inferencias que se van a realizar; entendiendo por evidencia tanto los datos, obeservaciones y hechos, como los argumentos que permitan apoyar y sustentar esos hechos. Por ello, según los standares vamos a entender: -La validez como un concepto unitario. -Y la validación como un proceso continuo que permitirá recoger evidencias sobre la adecuación de las inferencias. Lo que implica que los distintos “tipos de evidencias” se va a sustituir por distintas estrategias para obtener evidencias de validez. Distintos “tipos de validez”, se sustituye por “distintas estrategias para obtener evidencias de validez”

VALIDACIÓN DE CONTENIDO
VALIDACIÓN DE CONTENIDO: se analiza hasta qué punto los elementos de un test son: 1. Relevantes: exhaustiva especificación de todas las posibles conductas o dominios del constructo a medir. 2. Representativos: que todas las posibles conductas estén recogidas en el test. Distinción artificial entre Validez de Contenido y de Constructo, ya que en el momento en que se definen los dominios a medir, estaremos delimitando también el constructo La validación de contenido, hace referencia a analizar hasta qué punto los elementos de un test, son relevantes y representativos del constructo sobre el que se van a realizar las inferencias. Hemos hablado de relevantes y representativos. La relevancia, hace referencia a que se realice una exhaustiva especificación de todas las posibles conductas o dominios del constructo a medir. Mientras que la representatividad se refiere a que el test resultante esté compuesto por ítems de todas los dominios definidos por el constructo. Imaginemos que el constructo a medir es un programa de psicometría compuesto únicamente por temas de medición, fiabilidad, validez y análisis de ítems. Si queremos construir un test con validez de contenido deberíamos de especificar o definir concretamente cada uno de los dominios, Y a continuación seleccionar ítems de cada uno de ellos. En este punto, se podrá advertir que la distinción entre validez de contenido y de constructo es más artificial que real, ya que desde el momento en que se están definiendo los dominios del constructo a medir igualmente nos adentramos en el terreno de la V. de constructo.

Proceso de validación de contenido:
VALIDACIÓN DE CONTENIDO. Procedimientos para su evaluación Proceso de validación de contenido: Definición del dominio del constructodefinir claramente cada una de las dimensiones. Elaboración de las especificaciones del test. Es decir, el dominio y objetivos que va a cubrir el test. Selección de un panel de expertos en el dominio. Establecimiento de un marco estructurado para cuantificar el grado de acuerdo entre los distintos jueces. El proceso por el que se lleva a cabo una validación de contenido pasa por: A) definir el dominio de constructo, es decir, delimitar claramente cada una de las dimensiones del constructo que se va a medir. B) elaborar las especificaciones del test. Es decir, el dominio y objetivos que va a cubrir el test. C) selección de un panel de expertos en el dominio que mide el test. D) la operativización de un marco estructurado para que los jueces puedan valorar la adecuación del items al dominio que trata de medir. Ya que habitualmente, cada juez valora el grado de ajuste del ítem respecto al dominio en una escala con diversos puntos intermedios que van desde un mal ajuste...hasta...un buen ajuste.

Validez de contenido frente a validez aparente
VALIDACIÓN DE CONTENIDO. Aplicaciones La validez de contenido es importante para cualquier proceso de construcción de test, pero entendemos que es absolutamente necesaria en tests de rendimiento educativo y ocupacional porque permite responder preguntas tales como: 1. ¿Está el contenido del test libre de variables irrelevantes? 2. ¿Cubre una muestra representativa de destrezas específicas, para algún puesto de trabajo, por ejemplo? Entendemos que la validez de contenido es absolutamente necesaria en cualquier proceso de construcción de test, sin embargo, entendemos que es absolutamente necesaria en los tests de rendimiento educativo y ocupacional. Ya que permite responder a preguntas muy relevantes en este aspecto como son: Si el contenido del test está libre de variables irrelevantes. Si cubre una muestra representativa de destrezas específicas necesarias para algún puesto de trabajo por ejemplo. Validez de contenido frente a validez aparente

VALIDACIÓN DE CONTENIDO. Aplicaciones
Validez de contenido frente a validez aparente: los tests tienen que aparentar que están midiendo aquello que se propone, de tal forma que si el contenido del test parece poco relevante, sin sentido o infantil, podría desmotivar a los sujetos. Otro elemento importante a tener en cuenta es la validez aparente de los tests. Es decir, los tests tienen que aparentar que están midiendo aquello que se propone. De tal forma que si el contenido del test parece poco relevante, sin sentido o infantil, podría desmotivar a los sujetos.

VALIDACIÓN DE CONSTRUCTO. Procedimientos para su evaluación
VALIDACIÓN DE CONSTRUCTO: se entiende como la medida en que el test refleja la teoría psicológica a partir de la que se ha construido, y permite interpretar las puntuaciones dándoles un significado teórico (APA, AERA, NCME, 1999). ¿Mide realmente el test la variable que intenta medir? ¿Existe en realidad dicha variable? Por su parte la validez de constructo se entiende como la medida en que el test refleja la teoría piscológica a partir de la que se ha construido y permite interpretar las puntuaciones teóricas dándole un significado teórico. Las preguntas que a las que se trata de dar respuesta mediante la validación de constructo son: 1. ¿mide realmente el test la variable que se intenta medir? 2 ¿existe realmente dicha variable?

Las puntuaciones del tests no son el constructo. El constructo puede manifestarse a través de múltiples indicadores. Por ello, mediante la Validación de Constructo se acumulan evidencias que apoyan que las puntuaciones del test son una de sus posibles manifestaciones Lo que si conviene dejar claro es que las puntuaciones del test no son el constructo. Ya que el constructo puede manifestarse a través de múltiples indicadores. Mediante la validación de constructo se acumulan evidencias que apoyan que las puntuaciones del test son una de sus manifestaciones.

Fases: Definir cuidadosamente el constructo a medir, para ello se suele recurrir a teorías existentes y formular hipótesis entre: - VV. latentes y observadas (validez del rasgo); - Y con otras VV. Latentes (validez nomológica). 2. Diseñar instrumento de medida que contengan elementos representativos y relevantes del constructo a medir. 3. Obtención de datos empíricos, y evidencias sobre las relaciones previamente hipotetizadas. 4. Establecer la estructura interna y externa del test. Las fases por la que se puede llevar a cabo un estudio de validación de constructo pueden ser las siguientes: 1. En primer lugar se ha de definir cuidadosamente el constructo a medir. Para ello se ha de recurrir a las teorías existentes y establecer una hipótesis sobre la posible relación entre las variables latentes (inobservables) y una serie de variables o indicadores observables (validez del rasgo). Además se han de establecer hipótesis sobre las relaciones con otras variables que pudieran estar relacionadas (validez nomológica). 2. En segundo lugar se ha de diseñar un instrumento de medida que contenga elementos representativos y relevantes del constructo a medir. 3. En tercer lugar se han de obtener datos empíricos y evidencias sobre las relaciones previamente hipotetizadas. Básicamente, se trata de obtener evidencias sobre la estructura interna del test y sobre la relación de las variables implicadas con otras variables externas de interés.

Matrices multimétodo-multirrasgo (Campbell y Fiske, 1959).
VALIDACIÓN DE CONSTRUCTO. Procedimientos para su evaluación Procedimientos para la evaluación de V.constructo Correlaciones con otras medidas del constructo. Es decir, correlaciones con otro test previamente validado. en la medida en que la correlación sea alta mayor será la relación del test con el construto que trata de medir. Matrices multimétodo-multirrasgo (Campbell y Fiske, 1959). Análisis Factorial. Los distintos procedimientos más habituales para la obtención de evidencias de validez de constructo son: 1. A veces se utilizan las correlaciones entre las puntuaciones de un nuevo test y otros que se encuentren validados como evidencia de que el nuevo test mide el mismo constructo. En la medida, en que dicha correlación sea alta mayor será

Matrices multimétodo-multirrasgo (Campbell y Fiske, 1959): Se mide un mismo constructo mediante distintos procedimientos y distintos constructos mediante el mismo método. Se obtienen tres tipos de correlaciones: - Coeficientes de fiabilidad: son las correlaciones entre el mismo constructo medido con el mismo método. - Validez convergente (monorrasgo-heterométodo): son las correlaciones del mismo constructo medido mediante distintos procedimientos. - Validez discriminante (heterorrasgo-monométodo): son las correlaciones de distintos constructos medidos con el mismo procedimiento. Se trata de un proceimiento propuesto por Campbell y Fiske, en el que se intenta medir un mismo constructo mediante distintos procedimientos; y distintos constructos mediante el mismo método. Con ello, lo que se obtiene son tres tipos de correlaciones: 1. Coeficiente de fiabilidad: que son las correlaciones entre el mismo constructo, medido con el mismo método. 2. La validez convergente, o coeficiente monorrasgo-heterométodo: son las correlaciones del mismo constructo medido con distintos procedimientos. 3. La validez discriminante, o coeficiente heterorrasgo-monométodo: que implica la correlación establecida entre distintos constructos medidas con el mismo método.

Se quieren medir tres constructos: Razonamiento Numérico (RN), Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con pruebas de distinto formato: Verdadero-Falso (V-F); y Elección múltiple (E-M). En la tabla se presenta las correlaciones obtenidas entre los distintos constructos medidos con ambos métodos método 1 (V-F) método 2 (EM) RN FE RA FN Método 1 (V-F) .95 .20 .90 .30 .28 .92 Método 2 (EM) .31 .40 .93 .26 .87 .33 .37 .94 .43 .84 .88 Se quieren medir tres constructos: Razonamiento Numérico (RN), Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con pruebas de distinto formato: Verdadero-Falso (V-F); y Elección múltiple (E-M). En la tabla se presenta las correlaciones obtenidas entre los distintos constructos medidos con ambos métodos.

1. La fiabilidad hace referencia al mismo constructo medido con el mismo método (diagonal). Así por ejemplo, la fiabilidad de razonamiento numérico medido con el método 1 es de .95, mientras que con el método 2 es de .93 Mét. 1 (V-F) Mét. 2 (EM) RN FE RA Mét. 1(V-F) .95 .20 .90 .30 .28 .92 .31 .40 .93 .26 .87 .33 .37 .94 .43 .84 .88 Si recordamos la fiabilidad hace referencia al mismo constructo medido con el mismo método. Que son precisamente los valores que se encuentran en la diagonal. Así por ejemplo, la fiabilidad de razonamiento numérico medido con el método 1 es de .95, mientras que con el método 2 es de .93; y lo mismo para Factor espacial y razonamiento abstracto.

La validez convergente o coeficiente monorrasgo-heterométodo, hacía referencia a que se midiera el mismo constructo pero con distinto método (verde). En teoría estas correlaciones deberían ser altas y significativas. Así por ejemplo, el razonamiento numérico medido con el método 1 y 2 obtiene un valor de .90. Mét. 1 (V-F) Mét. 2 (EM) RN FE RA Mét. 1(V-F) .95 .20 .90 .30 .28 .92 .31 .40 .93 .26 .87 .33 .37 .94 .43 .84 .88 La validez convergente hacía referencia o coeficiente monorrasgo-heterométodo, hacía referencia a que se midiera el mismo constructo pero con distinto método. En la tabla son los valores que aparecen en verde. En teória estos correlaciones deberían ser altas y significativas. Así por ejemplo, el razonamiento numérico medido con el método 1 y 2 obtiene un valor de .90.

3. la validez discriminante, hace referencia a las correlaciones entre distintos rasgos con el mismo método (rojo). En teoría, éstas han de ser bajas, y menores que la fiabilidad y la validez convergente. Así por ejemplo, la correlación entre RN y FE medido con el método 1, es de .20. Mét. 1 (V-F) Mét. 2 (EM) RN FE RA Mét. 1(V-F) .95 .20 .90 .30 .28 .92 .31 .40 .93 .26 .87 .33 .37 .94 .43 .84 .88 Por último, la validez discriminante, hace referencia a las correlaciones obtenidas entre distintos métodos con el mismo rasgo. En teoría estas han de ser bajas, y menores que los coeficientes de fiabilidad y los de validez convergente. Así por ejemplo, la correlación entre el razonamiento numérico y el factor espacial medido con el método 1, es de .20.

Un problema es que no hay criterio estadístico para determinar si existe o no validez convergente y discriminante. Actualmente, se suele investigar este aspecto mediante procedimientos derivados del Análisis Factorial Confirmatorio. Uno de los problemas que nos encontramos es que no existe criterio estadístico para determinar si hay o no, validez convergente y discriminante, a lo sumo se puede decir que parece haber cierta videncia sobre ello. Actualmente se suele investigar este aspecto mediante procedimientos derivados del análisis factorial confirmatorio.

Análisis Factorial: es una de las técnicas más utilizadas para determinar la estructura interna y externa del test en relación con el constructo. El objetivo es explicar un conjunto de variables observadas (ítems de un test, por ejemplo) mediante un número menor de variables latentes inobservables denominadas factores (dimensiones teóricas). Son estos factores los que permiten dar una interpretación teórica mediante la forma en que se agrupan los ítems en función de su contenido, que deberían coincidir con las dimensiones teóricas utilizadas en la construcción de la escala. El análisis factorial es una de las técnicas más utilizadas en para determinar la estructura interna del constructo. El objetivo del análisis factorial es explicar un conjunto de variables observadas (ítems de un test, por ejemplo) mediante un número menor de variables latentes inobservables denominadas factores. Son precisamente, estos factores los que permite dar una interpretación teórica mediante la forma en que se agrupan los ítems, en función de su contenido. En teoría estas agrupaciones deberían coincidir con las dimensiones teóricas utilizadas a la hora de construir la escala.

Exploratorio frente Confirmatorio:
VALIDACIÓN DE CONSTRUCTO. Procedimientos para su evaluación Exploratorio frente Confirmatorio: AFE: No se tiene absoluta certeza de la dimensionalidad de la escala. Tras ejecutar un AFE, obtenemos una solución sobre el número de factores o dimensiones en las que se puede resumir las variables observadas. AFC: tenemos ciertas hipótesis sobre el número de dimensiones y la forma en que se agrupan los ítems. Reporta índices de ajuste que nos ayudan a decidir si dicha estructura se reproduce en los datos. Conviene diferenciar entre Análisis Factorial Exploratorio y confirmatorio. Cuando no se tiene certeza de la dimensionalidad de la escala es habitual utilizar el Análisis Factorial Exploratorio, que a la postre no ofrecerá una solución sobre el número de factores en los que se puede resumir las variables observadas. Si por el contrario, tenemos cierta hipótesis sobre el número de dimensiones y la forma en que se agrupan los ítems, podemos utilizar el AFC, que reportará índices de ajuste que nos ayuden a determinar si dicha estructura se reproduce o no en los datos.

1. Todos los factores están correlacionados, o, no. 2. Todas las variables observadas están afectadas por todos los factores latentes. 3. Los errores no correlacionan entre si. 4. Los factores o variables latentes no correlacionan con los términos de error

La validación referida al criterio

VALIDACIÓN REFERIDA AL CRITERIO:
obtener evidencias acerca del grado en que las puntuaciones obtenidas en el test, pueden utilizarse eficazmente para hacer inferencias sobre el comportamiento real del sujeto en un criterio que no se puede medir directamente. APA (1999). Evidencia basada en la relación con otras variables. la validación referida al criterio implica obtener evidencias acerca del grado en que las puntuaciones obtenidas en el test pueden utilizarse de manera eficaz para hacer inferencias sobre el comportamiento del sujeto en un criterio que no se puede medir directamente. Para la American Psychological Association (1999) se trata de un tipo de evidencia basada en la relación con otras variables

VALIDACIÓN REFERIDA AL CRITERIO
Posibles Diseños: varían en función del momento en que se recogen los datos del test y criterio. V. Predictiva: el criterio se mide después de haber aplicado el test. - Objetivo: predecir las puntuaciones futuras en el criterio a partir de las obtenidas en el test. - Ejemplo: ¿Tendrá el sujeto un trastorno depresivo? Uso predictivo del test 2. V. Concurrente: test y criterio se miden al mismo tiempo. -Ejemplo: ¿Tiene el sujeto, actualmente, un trastorno depresivo? Uso diagnóstico del test en la validación referida al criterio existen distintos diseños que se pueden utilizar. Estos varían en función del modo en que se ha recogido los datos del test y del criterio. Normalmente se diferencia entre: validez predictiva, cuando se aplica el test y posteriormente se recogen los datos relativos al criterio. El objetivo es predecir las puntuaciones futuras en el criterio. Un ejemplo de validez predictiva puede hacer refencia a cuando nos preguntamos por si un sujeto tendrá en el futuro algún trastorno depresivo? En este caso el criterio hace referencia a la sintomatología depresiva. Normalmente, la validez predictiva se utiliza cuando se hace algún uso predictivo del test. Validez concurrente; cuando los datos del test y criterio se han recogido al mismo tiempo. En este caso, podríamos plantearnos si el sujeto sufre, en la actualidad, algún trastorno depresivo. En este caso, estamos haciendo un uso diagnóstico del test. Y validez retrospectiva, cuando los datos del criterio se ha recogido antes de administrar el test. Nos interesa cuando nos preguntamos en qué grado el sujeto poseyó un determinado rasgo en el pasado. La validación predictiva es más difícil de llevar a cabo ya que es posible que se pierdan sujetos de la muestra al implicar cierto tiempo de espera.

VALIDACIÓN REFERIDA AL CRITERIO
Posibles Diseños: varían en función del momento en que se recogen los datos del test y criterio. 3. V. Retrospectiva: el criterio se mide antes de administrar el test. ¿Tuvo el sujeto un trastorno depresivo hace 2 años? en la validación referida al criterio existen distintos diseños que se pueden utilizar. Estos varían en función del modo en que se ha recogido los datos del test y del criterio. Normalmente se diferencia entre: validez predictiva, cuando se aplica el test y posteriormente se recogen los datos relativos al criterio. El objetivo es predecir las puntuaciones futuras en el criterio. Un ejemplo de validez predictiva puede hacer refencia a cuando nos preguntamos por si un sujeto tendrá en el futuro algún trastorno depresivo? En este caso el criterio hace referencia a la sintomatología depresiva. Normalmente, la validez predictiva se utiliza cuando se hace algún uso predictivo del test. Validez concurrente; cuando los datos del test y criterio se han recogido al mismo tiempo. En este caso, podríamos plantearnos si el sujeto sufre, en la actualidad, algún trastorno depresivo. En este caso, estamos haciendo un uso diagnóstico del test. Y validez retrospectiva, cuando los datos del criterio se ha recogido antes de administrar el test. Nos interesa cuando nos preguntamos en qué grado el sujeto poseyó un determinado rasgo en el pasado. La validación predictiva es más difícil de llevar a cabo ya que es posible que se pierdan sujetos de la muestra al implicar cierto tiempo de espera.

Definir claramente el criterio que se quiere medir.
VALIDACIÓN REFERIDA AL CRITERIO Fases: Definir claramente el criterio que se quiere medir. Identificar el indicador o indicadores a utilizar como medidas del criterio. Seleccionar una muestra de sujetos representativa. Aplicar el test predictor y obtener una puntuación para cada sujeto. Obtener una medida de cada sujeto en el criterio. Determinar el grado de relación entre las puntuaciones obtenidas en test y criterio. Los pasos por los que se puede llevar a cabo un proceso de validación de criterio son los siguientes: Definir claramente el criterio que se quiere medir. Identificar el indicador o indicadores a utilizar como medidas del criterio. Seleccionar una muestra de sujetos representativa. Aplicar el test y obtener una puntuación para cada sujeto. Obtener una medida de cada sujeto en el criterio. Determinar el grado de relación entre las puntuaciones obtenidas.

VALIDACIÓN REFERIDA AL CRITERIO.
El problema de la medición y selección del criterio. Un problema importante es la forma en que vamos a definir y delimitar el criterio: Criterio o indicador simple de fácil delimitación: Un test de selección de vendedores de enciclopedias (criterio de éxito = 10 enciclopedias/semana). Criterio o indicador complejo (delimitación más complicada): Selección de profesor de Psicometría (criterio de éxito = ¿conocimiento materia?¿Habilidades sociales?¿publicaciones?,...¿...?). Un elemento importante, es la forma en que se va a definir y medir el criterio. En este sentido, a veces encontramos que es posible definir el criterio de manera fácil. Así por ejemplo, si estamos en una selección de vendedores de enciclopedias, un criterio adecuado podría ser que venda 10 unidades por semana. Sin embargo, en la mayoría de las ocasiones, el problema es más complejo. Así por ejemplo, si estamos interesados en ocupar una plaza de profesor de Psicometría el criterio de éxito puede ser más complejo: ¿su conocimiento sobre la materia?¿la empatía con los alumnos?¿sus habilidades sociales?,..., en cualquier caso, es algo que buenamente podrían valorar ustedes. A pesar de todo ello, en cualquiera de los casos conviene dejar claro que todos los indicadores son parciales y no ofrecen una comprensión completa del criterio. Todos los indicadores son parciales y no ofrecen una comprensión completa del criterio

c) Fiables: se han de utilizar indicadores estables en el tiempo.
VALIDACIÓN REFERIDA AL CRITERIO. El problema de la medición y selección del criterio. Para la selección del criterio Thorndike y Hagen (1989) recomiendan indicadores que: a) Relevantes: estén relacionados con el criterio, sin embargo, no existen tests estadísticos que nos permitan concluir en este sentido recurrir a jueces expertos b) Libres de sesgo: variables que afectan de manera diferencial entre grupos. c) Fiables: se han de utilizar indicadores estables en el tiempo. d) Accesibles En cualquier caso, en la selección del criterio según Thorndike y Hagen, se recomienda que los indicadores han de cumplir algunos requisitos mínimos como son: A) que sean relevantes. Es decir que estén relacionados con el criterio. El problema es que no se dispone de ninguna prueba estadística que permita concluir en este sentido, por ello, se suele recurrir a juicios de expertos. Imaginemos que se está evaluando un prueba de matemáticas, y además de la competencia en las mismas en la nota influye la presentación o caligrafía. Puede darse el caso de que variables no relacionadas estén influyendo en la puntuación final. B) Que estén libres de sesgo: hace referencia a que, en la medida de lo posible, se controlen variables que puedan afectar diferencialmente a distintos grupos. C) que sean Fiables: es decir que se utilicen indicadores estables en el tiempo. D) y finalmente accesibles ya que ningún sentido tendría utilizar indicadores que a la postre no se puedan registrar.

El problema de la medición y selección del criterio. Cuando operativizamos el coef. de validez mediante la correlación test-criterio aparecen problemas ligados a la naturaleza de la correlación: Fiabilidad del predictor y del criterio: bajos coeficientes de fiabilidad del test y criterio rebajan los valores del coeficiente de validez. Restricción del rango: el coeficiente de validez puede verse reducido debido a restricciones en la variabilidad de la muestra (selección de personal ya que se seleccionan a sujetos con puntuaciones altas). Dicotomización en el test, criterio o ambas: reducen los valores del coeficiente de validez. Por otro lado, cuando operativizamos el coeficiente de validez mediante la correlación entre test y criterio, surgen problemas debido a la naturaleza de la correlación: 1. En primer lugar, si la fiabilidad tanto del test como del criterio son bajas entonces el coeficiente de validez también será bajo. Si recordamos del capítulo anterior el valor máximo del coefeciente de validez es el índice de fiabilidad. 2. En segundo lugar, la validez puede verse reducida cuando la variabilidad de la muestra es pequeña. Este caso es especialmente llamativo en la validación de los tests de selección de personal en los que se seleccionan sólo sujetos con puntuaciones altas en el test. 3. Por último, la dicotomización en el test, criterio o ambas también reduce el coeficiente de validez.

Procedimientos estadísticos utilizados en la validación referida al criterio. Coeficiente de validez  Correlación entre las puntuaciones del test y del criterio (Crocker y Algina, 1986; Robinson y Stafford, 2006). Dependiendo del número de tests y criterios Martínez-Arias (1995) diferencia: Un predictor y un criterio. Análisis de correlación; y regresión simple. 2. Varios predictores y un criterio. Análisis de correlación y regresión múltiple, análisis discriminante (criterios cualitativos), regresión logística (criterio dicotómico). 3. Varios predictores y varios criterios. Análisis de regresión multivariante, análisis de correlación canónica (técnicas complejas que difícilmente conduce a resultados directos) 4. Validez y utilidad de las decisiones. Investigación operativa (Técnicas maximax y minimax) (Van der Linden, 1991) optimizar las decisiones tomadas con el test. - la forma más habitual de operativizar el coeficiente de validez es mediante la correlación entre las puntuaciones del test y del critetrio. Sin embargo dependiendo del número de tests y de criterios Martínez Arias (1995), realiza la siguiente clasificación. 1. Cuando sólo hay un único predictor y un criterio, los procedimientos analíticos más comunes son el análisis de correlación y la regresión simple. 2. Cuando hay varios predictores y un solo criterio, se suele recurrir al análisis de correlacíón y la regresión múltiple. Cuando los criterios son de naturaleza cualitativa entonces se puede aplicar el análisis discriminante. Y cuando el criterio se encuentra dicotomizado (como por ejemplo padecer o no una determinada categoría diagnóstica) entonces se puede recurrir a la regresión logística. 3. El tercer caso, se trata cuando tenemos varios predictores y varios criterios. En estos casos, se recurre a la regresión múltiple y correlación conónica. Estas técnicas raramente se utilizan ya que son complejas y difícilmente conducen a resultados fáciles de interpretar. 4. Por último cuando abordamos la validez desde la utilidad de las decisiones, tenemos toda la estadística derivada de la investigación operativa, concretamente destacan los maximin y minimax que tratan de optimizar las decisiones tomadas con el test.

Validación con un único indicador y un solo predictor del criterio. Coeficiente de validez  Correlación y regresión simple: ¿hasta qué punto podemos predecir las puntuaciones en el criterio de un sujeto, dada su puntuación en el test? La fórmula para obtener la correlación entre test y criterio viene definida por la siguiente expresión: Importante: el tipo de correlación dependerá del tipo de variable de test y criterio. Como hemos comentado anteriormente, la correlación y regresión son las formas habituales de operativizar el coeficiente de validez. La pregunta a la que intentamos dar respuesta es ¿hasta qué punto podemos predecir la puntuación en el criterio de un sujeto dada su puntuación en el test? La fórmula para obtener la correlación entre test y criterio viene definida por la siguiente expresión

VALIDACIÓN REFERIDA AL CRITERIO. El modelo de regresión lineal
Conocida la correlación, se utiliza el modelo de regresión lineal para predecir las puntuaciones en el criterio (Y) a partir de las puntuaciones en el test (X). La función lineal viene definida por: Una vez que conocemos la relación entre test y criterio, se suele recurrir al modelo de regresión lineal para predecir las puntuaciones en el criterio (Y) a partir de las puntuaciones del test (X). La función lineal por la que se estiman los valores del criterio es igual a “a + b*X” donde a es el valor esperado de Y cuando X =0; y b es la cantidad de cambio en Y por cada unidad de cambio en X.

VALIDACIÓN REFERIDA AL CRITERIO. El modelo de regresión lineal
Todo ello, se puede representar en la siguiente gráfica: 3. La diferencia entre (XY) y (XY´) determina el error de predicción distancia vertical entre ambos puntos a Xi Yi P(X,Y) = valor de y observado para xi P(X,Y`) = valor de y pronosticado para xi por la función lineal Y`i e=yi-y`i Todo ello, se puede representar en la siguiente gráfica. 1. El punto en el que la línea corta al eje Y es la ordenada en el origen y representa el valor esperado de Y, cuando X vale cero. Para un valor dado de X, tenemos dos puntos diferentes (X,Y) y (X,Y`) pronosticado por la función lineal. Dicha función predice un valor de Y, que no se corresponde con el valor real. Precisamente, al diferencia entre ambos valores determina el error en la predicción, que es la distancia vertical entre ambos puntos. Precisamente de lo que se trata es de ajustar una línea que haga mínimo los errores. 2. Para cada Xi, tenemos dos puntos (XY), y (X, Y`) pronosticado. Es decir, dicha función predice un valor de Y, que no se corresponde con el real 1. a=punto donde la línea corta al eje Y, o valor esperado de Y, cuando X vale 0.

a b VALIDACIÓN REFERIDA AL CRITERIO. Ecuaciones de regresión.
La pendiente de la recta, puede obtenerse a partir del coeficiente de validez y de las desviaciones típicas del test y del criterio. Con todo ello, se puede derivar la ecuación de regresión para pronosticar el valor en el criterio a partir de una puntuación en X - La pendiente de la recta de regresión puede obtenerse a partir del coeficiente de validez y de las desviaciones típicas tanto del test como del criterio. Y una vez calculado el valor de la pendiente puede obtenerse la ordenada en el origen. Y con todo ello, se puede derivar la ecuación de regresión para pronosticar el valor en el criterio a partir de una puntuación en X. a b

VALIDACIÓN REFERIDA AL CRITERIO. Ecuaciones de regresión.
En puntuaciones diferenciales  la ordenada en el origen pasa por el punto (0,0) Yi a Y`i Xi a =(0,0) Puntuaciones directas Puntuaciones diferenciales También podemos expresar la recta de la ecuación en puntuaciones diferenciales que a diferencia de en puntuaciones directas, pasa por el origen de las coordenadas. Es decir, se trata de un recta paralela a la obtenida en puntuaciones directas, y por tanto con la misma pendiente. Hay veces que el psicólogo puede estar interesado en hacerlas en puntuaciones típicas, con media cero y desviación típica 1. También pasa por el origen de coordenadas, y teniendo en cuenta que en puntuaciones típicas la desviación típica es la unidad, la pendiente de la recta de regresión será el coeficiente de validez. En este caso esta recta no es paralela a las anteriores, ya que las pendientes no coinciden. En puntuaciones típicas  la pendiente de la recta es el coeficiente de validez

La varianza residual o varianza error y el error típico de estimación. El error de estimación, hace referencia a la diferencia entre el valor real obtenido por un sujeto en el criterio y el pronosticado por la función lineal: El promedio de los errores de todos los sujetos al cuadrado es la varianza residual o varianza error: El error de estimación hace referencia a la diferencia entre el valor obtenido por un sujeto en el criterio y el pronosticado a partir de la función lineal: Al promedio de los errores de todos los sujetos al cuadrado, se le denomina varianza residual o varianza error y a su desviación típica error típico de estimación. A mayor rxy mejor estimación de  menor será cada error individual y  menor será el error típico de estimación (SY.X)

VALIDACIÓN REFERIDA AL CRITERIO. Intervalos de confianza.
Debido a los errores de estimación, más que estimaciones puntuales es conveniente hacerlas por intervalos. Asumiendo que los errores se distribuyen normalmente: Determinar el nivel de confianza y su puntuación típica asociada (NC. 99% Zc=2.58). Calcular el error típico de estimación Calcular el error máximo que estamos dispuesto a asumir (Emax = Zc Sy.x). Aplicar la ecuación de regresión y obtener la puntuación pronosticada. (Y`= a + bX) Establecer el intervalo de confianza. Y`Emax Debido a los errores de estimación, más que estimaciones puntuales es conveniente hacerlas por intervalos. Para ello, al igual que en los capítulos de fiabilidad en los que se establecían los intervalos confidenciales para estimar la puntuación verdadera, las fases que hay que seguir son: 1. Determinar el nivel de confianza con el que vamos a trabajar así como su puntuación típica asociada. 2. Calcular el error típico de estimación. 3. Determinar el error máximo que estamos dispuestos a asumir. 4. Estimar la puntuación en el test mediante la ecuación de regresión. 5. Y finalmente, establecer el intervalo de confianza en torno a la puntuación estimada.

Interpretación de la evidencia obtenida acerca de la capacidad predictiva del test. Dado que podemos establecer que la varianza de las puntuaciones del criterio es igual la varianza de las puntuaciones pronosticadas más la varianza residual: Si dividimos todos los miembros por la varianza de las puntuaciones en el criterio obtenemos una forma útil de obtener el error típico de estimación, ya que sólo necesitamos conocer el coef. de validez y la varianza del criterio: Dado que la puntuación del criterio es igual a la suma de la pronosticada más el error de estimación, podemos establecer que la varianza del criterio es igual a la suma de la varianza de las puntuaciones pronosticadas más la varianza error. Entonces si dividimos todos los miembros de la ecuación por la varianza de las puntuaciones en el criterio podemos obtener otra forma de estimar el error típico de estimación que resultará muy útil a nivel práctico, ya que se puede estimar una vez conocido el coeficiente de validez y la varianza de las puntuaciones en el criterio.

Interpretación. Coeficiente de determinación Para interpretar las evidencias de validez de criterio, nos valemos de diversos índices: 1. Coeficiente de Determinación: equivale al coef. de validez al cuadrado. Representa la proporción de varianza de las puntuaciones de los sujetos en el criterio que se puede pronosticar a partir del test El C.D está acotado en el intervalo [0_1] Cuando la varianza error es pequeña, implica que los valores pronosticados de Y` están próximos a los reales;  el error típico de estimación será pequeño y por tanto el C.D tomará valores próximos a uno. Para interpretar las evidencias de validez de criterio, nos valemos de diversos índices. Entre ellos destaca el Coeficiente de determinación que equivale al coeficiente de validez al cuadrado, y representa la proporción de varianza de las puntuaciones de los sujetos en el criterio que se puede pronosticar a partir del test. El coeficiente de determinación está acotado entre cero y uno. Ello implica que cuando la varianza error, es pequeña lógicamente los valores pronosticados estarán próximos a los reales, y por tanto el error típico de estimación será pequeño y por tanto el coeficiente de determinación tomará valores próximos a uno. En resumen, podemos decir que el CD, expresa la proporción de variación de Y ligada a X, o determiada por X, explicada por X, o que se puede predecir a partir de X. Expresa, la proporción de variación de Y ligada a X, determinada por X, explicada por X, o que se puede predecir a partir de X.

Interpretación. Coeficiente de alienación 2. Coeficiente de alienación: indica la proporción que representa el error típico de estimación respecto a la desviación típica de las puntuaciones en el criterio El C.A está acotado en el intervalo [0_1] Cuando la varianza error es alta, implica que los valores pronosticados de Y` están lejanos de los reales;  el error típico de estimación será elevado y por tanto el C.A tomará valores próximos a uno. Otro de estos índices, complementario al anterior es el Coeficiente de alienación que representa el error típico de estimación respecto a la desviación típica de las puntuaciones en el criterio. Al igual que en el caso anterior se encuentra acotado en el intervalo 0_1. En este caso, cuando la varianza error es alta, implica que los valores pronosticados de Y estarán lejos de los reales; ello implica que el error típico de estimación será elevado y por tanto el coeficiente de alienación tomará valores próximos a uno. Si observamos la fórmula, será igual a uno, cuando el coeficiente de validez sea cero. Es decir, cuando indique que no existe ningún tipo de relación entre test y criterio. En síntesis, y al contrario que en caso anterior, expresa la proporción de variación de Y que no está ligada a X, determinada por X, explicada por X, o que no se puede predecir a partir de X. Es decir, informa sobre la inseguridad o azar que afecta a los pronósticos. Expresa la proporción de variación de Y que no está ligada a X, determinada por X, explicada por X, o que no se puede predecir a partir de X  inseguridad, azar que afecta a los pronósticos

Interpretación. Coeficiente de valor predictivo 3. Coeficiente de valor predictivo: complementario al C.A, es otra forma de expresar la capacidad del test para pronosticar el criterio El C.V.P está acotado en el intervalo [0_1] Cuando mayor sea el C.A menor será la capacidad del test para pronosticar el criterio. 3. Finalmente, el CVP, que es complementario al CA, es otro forma de expresar la capacidad del test para pronosticar el criterio. Al igual que en los casos anteriores, está acotado entre 0 y 1. Por tanto, cuanto mayor sea el CA menor será la capacidad predictiva del test para pronosticar el criterio.

VALIDACIÓN REFERIDA AL CRITERIO. Ejemplo
Supongamos que se quiere llevar a cabo un estudio de validación relativa al criterio de un test de aptitud mecánica (X); para ello, se aplica a una muestra de sujetos. Estos sujetos son evaluados posteriormente por sus supervisores, en una escala de 0 a 10, en función del tiempo empleado en reparar un coche con la misma avería. X Y X2 Y2 XY Y` (Y-Y`) 12 9 144 81 108 7.89 1.11 14 7 196 49 98 8.68 -1.68 15 10 225 100 150 9.08 0.92 8 64 56 5.91 2.09 5 25 45 6.71 -1.71 4 16 4.73 -0.73 61 43 711 335 473

Calcular el coeficiente de validez : Variables cuantitativas aplicamos Pearson. Obtenemos un valor de 0.73, y dado que el valor máximo del coeficiente de validez es 1, se puede decir que el test tiene una buena capacidad predictiva. Para calcular el coeficiente de validez hemos de estimar el grado de asociación entre test y crterio. Dado que se trata de dos variables cuantitativas aplicaremos la correlación de Pearson. Encontramos que la relación entre test y criterio es 0.73, y dado que el valor máximo del coeficiente de validez es la unidad, se puede decir que el test tiene una buena capacidad predictiva.

Calcular la ecuación de regresión : 1. Hemos de calcular tanto a, como b. 2. A continuación podemos calcular los valores pronosticados de Y, a partir de cada valor de X. Así, un sujeto que en X=12, se le pronostica en Y=7.89 Y=a+bX; Y= X Yx=12= *12=7.89 Para calcular la ecuación de regresión, es necesario calcular tanto la pendiente de regresión como la ordenada en el origen. Una vez calculados ambos parámetros se pueden pronosticar los valores en el criterio para cada uno de los valores en el test. En nuestro ejemplo, la ecuación de regresión viene definida por Y, igual al 3.15 más 0.395X. Y a partir de ello, podemos calcular los valores pronosticados de Y a partir de los de X.

Una vez construida la recta de regresión, podemos predecir para cada valor de X, cuál sería la puntuación del sujeto en el criterio (Y): - Una vez estimados todos los valores Y´, podemos obtener los correspondientes errores de pronóstico, si al valor real le restamos el pronosticado. Ejemplo (9-7.89) X Y Y’ =a+BX; Y` (Y-Y`) 12 9 Yx=12= *12 7.89 (9-7.89)=1.11 14 7 Yx=14= *14 8.68 -1.68 15 10 Yx=15= *15 9.08 0.92 8 Yx=7= *7 5.91 2.09 5 Yx=9= *9 6.71 -1.71 4 Yx=4= *4 4.73 -0.73 A continuación podríamos estimar el valor que a partir de las puntuaciones en el test, se les pronosticaría a los sujetos en el criterio. Así por ejemplo, para una X igual a 12, se le pronostica al sujeto en el criterio un valor de Para una de 14 de 8.68;...; y para una X de 4 se le pronostica un valor en Y de 4.73. A partir de lo que podríamos calcular el error de estimación, que hace referencia a la diferencia entre el valor real y el pronosticado en el criterio a partir del test.

A partir de los datos de tabla podemos calcular: La varianza de las puntuaciones pronosticadas La varianza de los errores o el error típico de estimación. Con todos estos datos, podemos calcular tanto la varianza de las puntuaciones pronosticadas, como la varianza de los errores y por tanto el error típico de estimación. A partir de todos los errores de estimación, se puede calcular el error típico de estimación. Dado que Cov(e,Y`)=0

Intervalos confidenciales. Supongamos que queremos saber qué puntuación le correspondería en el criterio a un sujeto que en el test hubiera obtenido una puntuación de 13. Nivel de confianza (95%)  Zc=±1.96 Calcular el error típico de estimación: Calcular el error máximo: Emax=ZcSy.x; Emax=1.96*1.46=2.83 Estimar el valor en el criterio para una puntuación en el test de 13: Una vez que contamos con todos los datos, podemos hacer una estimación acerca de la puntuación que se pronosticará a un sujeto en el criterio a partir del test. Así por ejemplo, supongamos que queremos saber qué puntuación le correspondería en el criterio a un sujeto que en el test hubiera obtenido una puntuación de 13 puntos. Para ello, tal y como hemos visto anteriormente, se pueden establecer intervalos confidenciales en torno a la estimación puntual del valor en el criterio. Tal y como se ha comentado, los pasos a seguir son los siguientes: En primer lugar se establece el nivel de confianza con el que vamos a trabajar, y se calcula la puntuación típica asociada. Normalmente, se trabaja con un nivel del 95%, que en una distribución normal tipificada equivale a una puntuación de 1.96. 2. A continuación se calcula el error típico de estimación, que como hemos visto anteriormente es de 1.46. 3. En tercer lugar, se calcula el error máximo, que estamos dispuestos a asumir. Dicho valor vendrá en función del nivel de confianza que hayamos utilizado y de la capacidad del test para pronosticar el criterio. Cuanto mayor relación haya menor será el intervalo ya que la estimación será más precisa. En nuestro caso, obtenemos un valor de. 2.83 4. A continuación, mediante la ecuación de regresión calculamos el valor pronosticado en el criterio para un sujeto que en el test obtenga un valor de 13. En nuestro ejemplo, dicho valor estimado es de 8.28. 5. Y por último, establecemos el intervalo en torno al valor estimado. En nuestro ejemplo, con una probabilidad del 95% el valor en Y para un sujeto que el test haya obtenido una puntuación de 13 puntos estará comprendido entre 5.42 y 5. Establecer el intervalo de confianza. Y`Emax=8.28±2.86= Y

1. Coeficiente de determinación: la proporción de varianza de las puntuaciones de los sujetos en el criterio que se puede pronosticar a partir del test. 2. Coeficiente de alienación: proporción que representa el error típico de estimación respecto a la desviación típica de las puntuaciones en el criterio Es decir, el 52 % de las puntuaciones en el criterio se podría pronosticar a partir del test, mientras que el resto, el 48% equivale a la variabilidad de las puntuaciones en el criterio sin explicar por el test.

A MODO DE SÍNTESIS - Concepto de fiabilidad: modelo lineal de Spearman (supuestos, deducciones); factores que afectan a la fiabilidad; estimación puntuación verdadera Significado de las medidas: Concepto de validez. De visión tripartita a concepto integrado que incluye las consecuencias del uso del test. Validación de contenido (ítems relevantes y representativos) (juicios de experto). Validación de constructo (¿refleja el test la teoría psicológica sobre la que se ha construido) (AFE, AFC, MMRM). - Si en los dos temas anteriores hemos tratado el concepto de fiabilidad que vimos que hacía referencia a la precisión de la medida, en este tema nos hemos ocupado del concepto de validez que hace referencia al significado de la misma. 1. Para ello, en primer lugar, hemos abordado el concepto de validez y su evolución histórica. Desde una visión tripartita del mismo que la dividía en validación de contenido, constructo y criterio. En la actualidad se aboga por una visión integrada en torno al concepto de validación de constructo, sin olvidar, gracias sobre todo a las aportaciones de Messick, las consecuencias del uso de los instrumentos de medida. 2. En general, la validación de contenido se refiere al grado en que los elementos del tests, son relevantes y representativos del constructo que se quiere medir. Normalmente, se recurre a juicios de experto para obtener evidencias de validez de contenido. 3. Mediante la validación de constructo se pretende obtener evidencias sobre si el test refleja la teoría psicológica sobre la que se ha construido. Los procedimientos analíticos más usuales son el análisis factorial, tanto exploratorio como confirmatorio; y las matrices multirrasgo-multimétodo.

A MODO DE SÍNTESIS 4. Validación referida al criterio. (¿sirven las puntuaciones en el test para hacer inferencias sobre otras variables). Selección y medición del criterio. (métodos correlacionales). -Coeficiente de correlación (1 tests: 1 criterio) = coeficiente de validez -Regresión Estimación (puntual-intervalos) -Interpretación: C.Determinación; alienación; valor predictivo. 4. El otro tipo de validación, la de criterio, hace referencia al grado en que las puntuaciones del test, pueden utilizarse para hacer inferencias sobre otras variables de interés relacionadas con el constructo que mide el test. En este punto, es de especial relevancia la selección y medición del criterio, ya que éstos han de estar libres, en la medida de lo posible, de sesgos que contaminen los resultados obtenidos. Para obtener evidencias de validez de criterio, normalmente se recurre al métodos correlacionales, que variarán en función del tipo y número de variables utilizadas. - En el caso más simple, es decir, cuando sólo se dispone de un test y un criterio, y ambas medidas son cuantitativas, la correlación de Pearson puede interpretarse como el coeficiente de validez. - A partir de poder establecer una relación lineal entre test y criterio, mediante la recta de regresión es posible estimar las puntuaciones que obtendrían los sujetos en el criterio. Pero debido al error de estimación, es decir, a al diferencia entre la puntuación observada en el criterio y la pronosticada, se recomienda establecer intervalos confidenciales en torno a las estimaciones puntuales realizadas. En la medida, en que el error típico de estimación sea menor, más precisa serán las estimaciones realizadas. -A partir del coeficiente de validez, obtenemos el coeficiente de determinación, que expresa la proporción en el criterio que se puede pronosticar a partir del test. El coeficiente de alienación, que es complementario al anterior, y expresa la variabilidad de las puntuaciones en el criterio que no se puede explicar a partir del test, y el coeficiente de valor de predictivo, que expresa la seguridad en los pronósticos, ya que se obtiene restando uno al coeficiente de alienación. En el siguiente tema, abordaremos la problemática de la validez de criterio cuando existen varios predictores. Además veremos la validez en los tests referidos al criterio. En el siguiente tema abordaremos la problemática de la validez de criterio cuando existen varios predictores. Y veremos la validez en los tests referidos al criterio.

BIBLIOGRAFÍA COMENTADA
1. Barbero, I., García, E. Vila, E., y Holgado, F.P. (2010). Psicometría: Problemas resueltos. Madrid: Sanz y Torres. Se trata de un libro de ejercicios y problemas en el que se incluye el desarrollo de la solución. El alumno podrá completar desde un punto de vista aplicado los conceptos y contenidos vistos en la parte teórica; así como adquirir las destrezas necesarias para la resolución de problemas. 2. Barbero, I. (Coord) , Vila, E. y Holgado, F.P. (2010). Psicometría. Madrid: Sanz y Torres. En el capítulo 6 se incluye la definición y evolución del concepto de validez, así como los principales aspectos relacionados con la validez de contenido, constructo y criterio. 3. Martínez Arias, R. (1995). Psicometría: Teoría de los Tests Psicológicos y Educativos. Madrid: Síntesis. Se tratan los principales aspectos relacionados con la validez tanto en su vertiente teórica como aplicada. Tras una presentación conceptual de los tipos tradicionales de validez (Capítulo 12), profundiza en los aspectos formales de la validez relativa al criterio (Capítulos 13 al 15) y de la validez de constructo (Capítulos 16 y 17).

BIBLIOGRAFÍA COMENTADA
4. Meliá, J.L. (2000). Teoría de la Fiabilidad y la Validez. Valencia: Cristóbal Serrano. En el Capítulo 11 se realiza un recorrido por algunas de las definiciones tradicionales de la validez. También se presentan las implicaciones de los tipos tradicionales de validez así como la relación existente entre la fiabilidad y la validez. El Capítulo termina con un apartado en el que realizan algunas consideraciones generales sobre la importancia de la validez. 5. Paz, M.D. (1996). Validez. En J. Muñíz (Coord.), Psicometría. Madrid: Síntesis. Este Capítulo comienza con una presentación de la evolución histórica del concepto de validez. Posteriormente, se abordan, a nivel tanto conceptual como aplicado, los aspectos más relevantes de la validez de constructo, de criterio y de contenido respectivamente.

Tema 6.1 Evaluación del instrumento de medida:

Presentaciones similares

Presentación del tema: "Tema 6.1 Evaluación del instrumento de medida:"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema 6.1 Evaluación del instrumento de medida:

Presentaciones similares

Presentación del tema: "Tema 6.1 Evaluación del instrumento de medida:"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback