LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

MSP César Eduardo Luna Gurrola
ANALISIS PARAMÉTRICOS
ESTADISTICA INFERENCIAL
Estadísticas Inferenciales Capítulo 10
Pruebas de hipótesis.
Contraste de Hipótesis
Estadística: -Correlación y regresión
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Correlación 1.
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
CURSO DE ESTADÍSTICA BÁSICA
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
9 Regresión Lineal Simple
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
ANALISIS DE DATOS CON EXCEL
Clases 3 Pruebas de Hipótesis
CHI-CUADRADO Y DISTRIBUCION NORMAL
Clases 4 Pruebas de Hipótesis
REGRESION Y CORRELACION
Unidad V: Estimación de
HAWKES LEARNING SYSTEMS math courseware specialists Copyright © 2010 by Hawkes Learning Systems/Quant Systems, Inc. All rights reserved. Capítulo 12 Más.
Estadística Administrativa II
ANALISIS DE DATOS CATEGORICOS
UNIVERSIDAD INCA GARCILASO DE LA VEGA
Curso de Bioestadística. ANOVA
Pronósticos, Series de Tiempo y Regresión
Distribuciones derivadas del muestreo
Los datos que se dan a continuación corresponden a los pesos en Kg
Inferencias con datos categóricos
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
Curso de Bioestadística. ANOVA
Análisis Cuantitativo de Datos (Básico)
Estadística Administrativa II
Titular: Agustín Salvia
Clase 4a Significancia Estadística y Prueba Z
Inferencia Estadística
Variables estadísticas bidimensionales
LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES.
Medidas de asociación entre dos variables
Capítulo 1. Conceptos básicos de la Estadística
1 ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 2 A Análisis de Tablas de Contingencia y Coeficientes de Asociación.
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Estimación Diferencia de dos medias
ACTIVIDAD DE PORTAFOLIOS 3
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
CONTRASTES NO PARAMÉTRICOS
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
Estadística Aplicada II PRUEBAS Chi -CUADRADO
Introducción a la Inferencia Estadistica Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff.
Clase N°11 Métodos de reducción de varianza
INFERENCIA ESTADÍSTICA
InfoStat. Software estadístico
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Bioestadística Inferencia estadística y tamaño de muestra
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
PRUEBA DE SIGNIFICANCIA
7.2 P ROCEDIMIENTOS PARAMÉTRICOS PARA DATOS CUANTITATIVOS Dos muestras Intervalos de confianza.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

EXPERIENCIA 1  Estudio de una tabla de contingencia

¿En qué se parecen estas interrogantes?  ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?  ¿Depende del colegio de egreso el puntaje obtenido en la PSU?  ¿Depende del sexo la marca de cigarrillo escogida?

 Las preguntas involucran  Una variable  2 variables  Más de dos variables  Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.

RESPUESTA INCORRECTA  Hay dos variables en cada problema  ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?  El ingreso y la carrera profesional  ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?  El puntaje de la PSU y el colegio  ¿Depende del sexo la marca de cigarrillo escogida?  La marca de cigarrillo y el sexo

La pregunta que se quiere contestar en cada caso es  ¿Las variables siguen una distribución normal?  ¿La muestra es representativa de la población?  ¿Las variables son independientes ó dependientes? Para seleccionar su repuesta identifique el tipo y el número de variables de interés.

RESPUESTA INCORRECTA  Se busca saber si hay o hay una relación entre las dos variables en cada problema  ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?  ¿El ingreso depende de la carrera profesional?  ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?  ¿El puntaje de la PSU depende del colegio donde se estudio?  ¿Depende del sexo la marca de cigarrillo escogida?  ¿Los hombres o las mujeres tienen una preferencia para una marca de cigarrillo?

Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados. En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres: Alezan; Corsario; Fontenoy; Icaro y Zodiaco. con una de las 8 categorías Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.

Pregunta a responder en esta experiencia: ¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada por los posibles consumidores?

Tabla de Contingencia Aquí tenemos dos variables X e Y nominales. Construiremos la tabla de contingencia asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas no acumuladas

Tabla de datos muestrales 2 variables nominales X : p categorías (A 1,A 2,...,A p ) Y : q categorías (B 1,B 2,...,B q ) Las respuestas (X k,Y k ) del encuestado k son del tipo (A i,B j ) Encuestado XY 1A3A3 B5B5 2A1A1 B4B4... nA2A2 B1B1 Tabla 1

Tabla de contingencia M ij :CANTIDAD DE RESPUESTAS (A i,B j ) p Categorías q CategorÍasq CategorÍas A1A1 A2A2...AjAj.....ApAp Total B1B1 M 11 M 12 M 1. B2B2 M M ij BiBi BqBq M q1 M q. Total M.1 n

¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia?  Se pierde solamente la identificación de cada encuestado  Se distorsiona la relación entre las dos variables  Se supone un tipo de distribución sobre las dos variables  Elige una de las 3 repuestas

RESPUESTA INCORRECTA  Se pierde solamente la identificación de cada encuestado  En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.

La tabla de contingencia permite estimar la distribución de probabilidad de:  X+Y  X  (X,Y)  Elige una de las 3 repuestas

RESPUESTA INCORRECTA  La repuesta es La distribución conjunta de (X,Y)  En efecto las proporciones M ij /n, que son las frecuencias relativas de encuestados que contestaron (A i, B j ), estiman las probabilidades de la distribución conjunta

¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas M ij ? Si X e Y son independientes, las probabilidades P ij cumplen: 1 2 las probabilidades P ij son todas iguales

RESPUESTA INCORRECTA  La repuesta es  En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia

 Tenemos entonces que estimar las probabilidades P ij bajo la hipótesis nula H o de independencia: con

¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ?  p*q parámetros  p+q-2 parámetros  p+q parámetros

RESPUESTA INCORRECTA  La repuesta es p+q-2 parámetros  En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A 1 ), P(X=A 2 ),..., P(X=A p-1 ) y deducir la estimación de P(X=A p ) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.

TEST  Consideramos las dos hipótesis:  H 0 : X e Y son independientes  H 1 : X e Y tienen algún grado de dependencia  El estadístico del Test es:

 Si Qo es el valor observado en la muestra, se rechaza H o si  1  2  3

RESPUESTA INCORRECTA  La repuesta es  2  En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.

Comandos Statit Trabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones. Realiza el test de tabla de contingencia con Statit: Statistics:  Enumerative Data  Contingency Data  Analyse of Independence  Raw variable: ”Percepcion”;  Column variable: “Marca”  Layout of Table:  Display Column Percentage

 Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción  Se rechaza la independencia  Se acepta la independencia

RESPUESTA INCORRECTA La repuesta es Se rechaza la independencia En efecto el p-valor se obtiene de la tabla Statistic DF Value Prob ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ Chi-Square

 Veamos ahora si podemos definir una relación entre la marca y su percepción:  Examine la tabla de contingencia, y  responda la pregunta 1 del test

EXPERIENCIA 2  Anova de un factor

Búsqueda de una droga para controlar el pulso de pacientes  Ahora estamos interesados en comparar tratamientos para bajar el pulso  Se mide el pulso de pacientes después del tratamiento A, B o C

Procedimientos  Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos Las medias y varianzas por grupo  Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos

Comandos Statit  Abra el archivo “pulso1.wkr” Statistics  Descriptive tools  Multi-way Univariate Statistics:  Analysis Variable: “pulso”;  Class Variable: “Tratamiento”  Statistics:  Mean y  Standard Desviation  Layout of Table:  Display a summary table...

Comandos Statit  Para la realizacion del gráfico:  En Statit con el archivo “pulso1.wkr”: Graphics  Distribution Plots  Box Plot:Variables: “pulso”; DisplayBox: “By group”; Group variable: “Tratamiento”  Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test

Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis:  Las varianzas del pulso en los 3 grupos son iguales  Las medias del pulso en los 3 grupos son iguales  La media del tratamiento C es el promedio de las medias de los tratamientos A y B  Elige una de las 3 repuestas

RESPUESTA INCORRECTA  La repuesta es Las medias del pulso en los 3 grupos son iguales.  En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas.

ANOVA  Consideramos las dos hipótesis  H 0 : μ 1 =μ 2 =μ 3  H 1 : las medias no son iguales  Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos

 Varianza para el tratamiento j:  Varianza promedio de los 3 grupos:  Varianza de las 3 medias:  Varianza Total:

Entonces, elige una de las 3 repuestas

RESPUESTA INCORRECTA  La repuesta es  (1) b=0  Además T=w+b  Si q es el numero de grupos, el estadístico : del test es:

 Para rechazar la hipótesis nula, se espera un estadístico F  Grande  Chico

RESPUESTA INCORRECTA  La repuesta es  Grande. Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula.

Comandos Statit  En Statit: Statistics  ANOVA  OneWay  Dependente Variable: ”Pulso”;  Classification Variable: “Tratamiento”  Examine los resultados y concluya sobre la hipótesis nula de igualdad de la medias.

LA RAZÓN DE CORRELACIÓN  Utilizando el hecho que T=b+w, se construye  Un índice llamado razón de correlación  2 =b/T  Que vale 1 cuando w=0 0 cuando b=0  Utilizando la tabla ANOVA calcule este índice y responda el test

EXPERIENCIA 3  Coeficiente de correlación

Se busca estudiar la relación entre el peso y la talla de un grupo de niñas  Queremos estudiar el efecto de la edad sobre la relación entre el peso y la talla de las niñas

Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe: Si r=1  X e Y son independientes  X e Y son linealmente dependientes

RESPUESTA INCORRECTA  La repuesta es  X e Y son linealmente dependientes  En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos  Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.

Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla  En Statit:  Statistics  Regresion and Correlation  Correlation coefficiente  Variables: ”Peso” y “Talla”  Observe el valor y el signo del Coeficiente de correlación

 El calculo anterior fue considerando todas las edades juntas  Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra  En Statit:  Statistics  Regresion and Correlation  Correlation coefficientes  Variables: ”Peso” y “Talla”  Local selection: edad==10  Responda el test