PRUEBA DE SIGNIFICANCIA

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANALISIS PARAMÉTRICOS
Tema.11. Principales modelos de distribución de probabilidad en Psicología: Variables discretas: binomial y Poisson. Variables continuas: normal, chi.
Tema 22: Análisis de tablas de contingencia Prueba c2 como medida de asociación y como prueba de contraste. Coeficientes derivados de c2. Interpretación.
1.1 Contraste de Bondad de Ajuste para Datos Categóricos
TEMA 6: CONTRASTES NO PARAMÉTRICOS
Evaluar el efecto de un tratamiento (1)
Estadística Aplicada a Ecología
Demostración de Asociación
Epidemiología clínica
Unidad de competencia II Estadística descriptiva:
ESTADISTICA INFERENCIAL
Pruebas de significancia para datos cualitativos
Estadísticas Inferenciales Capítulo 10
Pruebas de hipótesis.
Prueba Chi Cuadrada Para una Muestra
Variable Aleatoria Continua. Principales Distribuciones
Capítulo 10 Test de Hipótesis.
KRUSKAL WALLIS Jorge Iván Betancur Marta Isabel Naranjo García
Tema 8: Pruebas no paramétricas.
Comprobación de diferencias entre medias
Chi cuadrada y otras Pruebas no paramétricas
La prueba U DE MANN-WHITNEY
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
Prueba de Hipótesis La Prueba t Carlos B. Ruiz-Matuk.
El Coeficiente de Contingencia:
TABLAS DE CONTINGENCIA
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
DISTINTOS TIPOS DE FRECUENCIAS
CURSO DE ESTADÍSTICA BÁSICA
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
METODOLOGÍA DE INVESTIGACIÓN
Distribuciones de frecuencias bidimensionales
CURSO DE ESTADÍSTICA BÁSICA
Análisis no paramétricos
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Clases 3 Pruebas de Hipótesis
CHI-CUADRADO Y DISTRIBUCION NORMAL
Clases 4 Pruebas de Hipótesis
REGRESION Y CORRELACION
ANALISIS DE DATOS CATEGORICOS
Pronósticos, Series de Tiempo y Regresión
AÑO DE PROMOCIÓN DE LA INDÚSTRIA RESPONZABLE Y COMPROMISO CLIMÁTICO
Inferencias con datos categóricos
Pruebas No paramétricas
Clase 4a Significancia Estadística y Prueba Z
Inferencia Estadística
PRUEBAS DE BONDAD DE AJUSTE
Herramientas básicas.
Capítulo 1. Conceptos básicos de la Estadística
1 ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 2 A Análisis de Tablas de Contingencia y Coeficientes de Asociación.
“Tablas de Contingencia y medidas de asociación”
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
SEMINARIO DE INVESTIGACION
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Análisis de los Datos Cuantitativos
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
Curso de Estadística a Distancia El Profesor se va por las ramas… Los alumnos parecen ausentes…
INFERENCIA ESTADÍSTICA
INTRODUCCIÓN AL ANÁLISIS DE DATOS CATEGÓRICOS. Temas Carácterísticas de la distribución Chi-cuadrada Prueba de bondad de ajustes Prueba de homogeneidad.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
PRUEBA DE SIGNIFICANCIA
PRUEBA CHI-CUADRADO UNIDAD 2: ESTADÍSTICA.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
PRUEBA DE SIGNIFICANCIA
PRUEBA DE SIGNIFICANCIA
Transcripción de la presentación:

PRUEBA DE SIGNIFICANCIA CHI CUADRADO

¿Qué es la Chi Cuadrada? Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas Se simboliza por χ2 Hipótesis a probar : Correlaciónales ( H0 : no hay asociación y H1 hay asociación) Variables involucradas: Dos, esta prueba no considera relaciones causales Nivel de medición de las variables: Nominal u ordinal

Otras características Es una distribución asimétrica Sólo toma valores positivos y es asintótica con respecto al eje de las x positivas ( 0 < χ2 < +∞) Está caracterizada por un único parámetro “ n” llamado “grados de libertad” adoptando formas distintas según el valor de “n” El área comprendida entre la curva y el eje de las x es 1 ó 100%

Aplicaciones Entre las aplicaciones más frecuentes de esta distribución en el área de salud, podemos señalar: La prueba de asociación, la cual permite al investigador determinar si existe asociación entre dos variables en escala de medición nominal u ordinal. También aparece en la literatura con el nombre de “tablas de contingencia” La prueba de “bondad de ajuste”

PROCEDIMIENTO Se calcula a través de una tabla de contingencia o tabulación cruzada. Es una tabla de dos dimensiones y cada dimensión contienen una variable Cada variable se subdivide en dos o más categorías. Ejemplo: tabla 2x2 => cada dígito indica una variable y el valor de este indica el número de categorías de la variable

Ejemplo de una Tabla de Contingencia Dos variables : voto y sexo Cada variable con dos categorías VOTO CANDIDATO “ B” CANDIDATO “A” MASCULINO SEXO FEMENINO

Identificación politica Zona Distrito electoral Ejemplo Tabla 2x3 Norte Sur Partido 1 180 100 Partido 2 190 280 Partido 3 170 120 Identificación politica Zona Distrito electoral

En esencia la prueba de Chi Cuadrado es ....... “ es una prueba que parte del supuesto de “no relación entre las variables” “ una comparación entre la “tabla de frecuencias observadas” y la denominada “tabla de frecuencias esperadas” La lógica es “Si no hay relación entre las variables debe tenerse una tabla como la de frecuencias esperadas, si la hay la tabla que obtengamos como resultado de nuestra investigación debe ser muy diferente respecto de la tabla de frecuencias esperadas”

Paso a paso.................... En la tabla de contingencia se anotan las frecuencias observadas en la muestra de la investigación. Se calculan las frecuencias esperadas para cada celda fe = (total marginal de renglón)*(total marginal de columna) N donde N= ´número total de frecuencias observadas

Paso a paso.................... Se aplica la siguiente fórmula de Chi Cuadrada: χ2 = Σ(O – E)² / E donde O = frecuencia observada en cada celda E = frecuencia esperada en cada celda Es decir: “ Se calcula la diferencia entre la frecuencia observada y la esperada, esta diferencia se eleva al cuadrado y se divide entre la frecuencia esperada. Finalmente, se suman estos resultados y la sumatoria es el valor de la χ2 obtenida “

Otra forma de calcular Chi Cuadrado es............. Procedimiento para calcular la Chi Cuadrada Celda O E O – E ( O – E )² ( O – E )² / E Zona Norte / P 1 180 145,4 34,6 1.197,16 8,23 Zona Norte / P 2 190 244,4 -54,4 2.959,36 12,11 Zona Norte / P3 170 150,6 19,4 376,36 2,50 Zona Sur / P 1 100 134,6 -34,6 8,89 Zona Sur / P 2 280 226,0 54,0 2.916,00 12,90 Zona Sur/ P 3 120 139,4 -19,4 376,33 2,7 χ2 = 47,33

Paso a paso................. Cálculo del Ji cuadrada crítico: el cual se obtiene de una tabla específica, en donde se busca la intersección entre los grados de libertad y el nivel de significación α gl = ( r-1)*(c-1) donde r = nº de renglones de la tabla de contingencia c = nº de columnas Ejemplo => gl = ( 3 – 1 ) * ( 2 – 1 ) = 2 Con un nivel de confianza de 0,05 ó 0,01 y con los grados de libertad vamos a la tabla y obtenemos el valor χ2

Paso a paso.................... Región de rechazo R: está constituida por todos los valores del Ji cuadrado iguales o mayores que el Ji Cuadrado crítico Si nuestro valor calculado de χ2 es igual o superior al de la tabla, decimos que las variables están relacionadas ( χ2 fue significativa En nuestro ejemplo => χ2 tabla es 5,991 χ2 calculado es 47,33 El valor calculado por nosotros es muy superior al de la tabla : χ2 es significativa, es decir están relacionadas .

Observaciones Mientras mayor sea la diferencia entre los valores observados y los esperados, mayor será el valor de χ2 y aumentará por tanto la probabilidad de rechazar la hipótesis de nulidad No se puede usar la prueba de χ2 cuando el valor esperado en alguna celda es menor que 5, en ese caso debe usarse la probabilidad exacta de Fisher La suma de las frecuencias observadas debe coincidir con la suma de las frecuencias esperadas.

TABLAS DE CONTINGENCIAS OTRO USO

¿Qué otra utilización tienen las tablas de contingencia? Son útiles para describir conjuntamente a dos o más variables. Esto se hace convirtiendo las frecuencias observadas en frecuencias relativas o porcentajes

¿Qué otra utilización tienen las tablas de contingencia? En una tabulación cruzada puede haber tres tipos de porcentajes respecto a cada celda: Porcentaje en relación al total de frecuencias observadas (N) Porcentaje en relación al total marginal de la columna Porcentaje en relación al total marginal del renglón Veamos un ejemplo: sexo Masc Fem A 25 B 40 60 Preferencia por el conductor

c b d Frecuencias observadas En relación a N En relación a “a + b” 25 25,00% 38,46% a 50,00% c b d En relación a N En relación a “a + b” En relación a “a + c” a + c = 50 b + d c + d N=100 a + b = 65

Tabla Nº 1. - Tabla de contingencia para describir Tabla Nº 1.- Tabla de contingencia para describir conjuntamente dos variables Sexo Masculino Femenino 25 25,0% 38,5% 50,0% 71,4% ,50,0% 40 40,0% 61,5% 80,0% 10 10,0% 28,6% 20,0% 50 A Preferencia por el conductor B 50 35 65

Comentario final Una cuarta parte de la muestra está constituida por hombres que prefieren al conductor “A”, el 10 % son mujeres que prefieren al conductor “B”. Más del 60% de los hombres pprefieren a “B”, etc..

EL TEST EXACTO DE FISHER

El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando la muestra a estudiar es demasiado pequeña. El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tabla observada. Cada una de estas probabilidades se obtiene bajo la hipótesis nula de independencia de las dos variables que se están considerando.

La probabilidad exacta de observar un conjunto concreto de frecuencias a, b, c y d en una tabla 2 x 2 cuando se asume independencia y los totales de filas y columnas se consideran fijos viene dada por la distribución hipergeométrica: Esta fórmula se obtiene calculando todas las posibles formas en las que podemos disponer n sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas sean siempre los mismos, (a+b), (c+d), (a+c) y (b+d).

La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. Este valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual a la observada, bajo la hipótesis nula de independencia. Si esta probabilidad es pequeña (p<0.05) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos variables no son independientes, sino que están asociadas. En caso contrario, se dirá que no existe evidencia estadística de asociación entre ambas variables.

Grupo Si No Total Expuesto No expuesto A B C D A + B C + D N A+C B+D Supongamos que el suceso investigado es, si una enfermedad es más frecuente en el grupo de expuestos que en el de los no expuestos a un posible factor causal .tendremos la siguiente tabla Grupo Si No Total Expuesto No expuesto A B C D A + B C + D A+C B+D N

El test exacto de Fisher Ejemplo: Supóngase que un grupo de 16 personas se reunió a comer en un restaurante. Diez comieron pastel de mariscos y 6 comieron carne. Al día siguiente, 11 de los comensales amanecieron enfermos de gastroenteritis La tabla adjunta muestra las frecuencia de enfermos en los que comieron mariscos y en los que comieron carne. Lo que se quiere averiguar, es si la asociación entre el tipo de comida y enfermar, es estadísticamente significativa Enfermos Comida Si No Total Mariscos Carne 1 2 4 10 6 5 16

Procedimiento La Ho = frecuencia de enfermos entre los que comieron mariscos es la misma que la de los que enfermaron después de comer carne 11/16 =0,6875, la frecuencia de enfermos en el grupo total. Las probabilidades se pueden obtener en forma aproximada de la Tabla de Valores Críticos de D o C en la prueba de Fisher *,† Se busca la sección de la tabla en que los totales del margen derecho son A + B ( 10) y C + D = 6. Buscamos en la columna B o (A) si aparece 1, que es el valor de B en nuestro ejemplo. Dado que no se encuentra, se debe utilizar el valor de A = 9

Procedimiento Dado que tuvimos que buscar la fila del valor A = 9, lo que corresponde es buscar el valor de C en la tabla , que corresponde al valor 2. Valor observado es mayor o igual que el valor crítico indica asociación => 2 ≥ 2 para 5% de significancia. => se declara significativa la asociación Si es valor observado es menor que el crítico , entonces no existe asociación y se acepta la Ho Un valor 2 es suficiente para declarar significativa la asociación entre el consumo de alimentos y la enfermedad a nivel de 5% pero no a nivel 2,5% o 1%

C O E F I C I E N T E S DE C O R R E L A C I O N

¿Qué son los coeficientes de correlación e independencia para tabulaciones cruzadas? Son coeficientes que también sirven para evaluar si las variables incluidas en la tabla de contingencia o tabulación cruzada están correlacionadas Algunos de estos coeficientes se pueden observar en la siguiente tabla resumen:

Para tablas de contingencia Nivel de medición de las variables Coeficiente Para tablas de contingencia Nivel de medición de las variables Interpretación Phi (Φ) 2x2 Nominal Varía de 0 a +1, donde “0” implica ausencia de correlación entre las variables y “+1” significa correlación de manera perfecta Coef. de Pearson Cualquier tamaño Su valor mínimo es 0 ( ausencia de correlación). Su valor máximo depende del tamaño de la tabla de contingencia = > 2x2 ( 0 y 0,707) 3x3 ( 0 y 0,816) V de Cramer Mayores de Varía de 0 a +1 ; donde “0” es nula correlación y +1 es perfecta correlación. Lambda (λb) Varía de 0 a +1 ; +1 significa que puede predecirse sin error a la variable dependiente definida en la tabla, sobre la base de la independiente

Para tablas de contingencia Nivel de medición de las variables Coeficiente Para tablas de contingencia Nivel de medición de las variables Interpretación Gamma ( r) Cualquier tamaño Ordinal Varía de –1 a +1 , donde –1 es una relación negativa perfecta y +1 una relación positiva perfecta) Tau-b de Kendall (Tau-b) Cualquier tamaño, pero más apropiado para tablas con igual número de renglones y columnas Varía de –1 a +1 D. De Somers