La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Presentaciones similares


Presentación del tema: "LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación."— Transcripción de la presentación:

1 LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

2 EXPERIENCIA 1  Estudio de una tabla de contingencia

3 ¿En qué se parecen estas interrogantes?  ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?  ¿Depende del colegio de egreso el puntaje obtenido en la PSU?  ¿Depende del sexo la marca de cigarrillo escogida?

4  Las preguntas involucran  Una variable  2 variables  Más de dos variables  Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.

5 RESPUESTA INCORRECTA  Hay dos variables en cada problema  ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?  El ingreso y la carrera profesional  ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?  El puntaje de la PSU y el colegio  ¿Depende del sexo la marca de cigarrillo escogida?  La marca de cigarrillo y el sexo

6 La pregunta que se quiere contestar en cada caso es  ¿Las variables siguen una distribución normal?  ¿La muestra es representativa de la población?  ¿Las variables son independientes ó dependientes? Para seleccionar su repuesta identifique el tipo y el número de variables de interés.

7 RESPUESTA INCORRECTA  Se busca saber si hay o hay una relación entre las dos variables en cada problema  ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?  ¿El ingreso depende de la carrera profesional?  ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?  ¿El puntaje de la PSU depende del colegio donde se estudio?  ¿Depende del sexo la marca de cigarrillo escogida?  ¿Los hombres o las mujeres tienen una preferencia para una marca de cigarrillo?

8 Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados. En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres: Alezan; Corsario; Fontenoy; Icaro y Zodiaco. con una de las 8 categorías Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.

9 Pregunta a responder en esta experiencia: ¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada por los posibles consumidores?

10 Tabla de Contingencia Aquí tenemos dos variables X e Y nominales. Construiremos la tabla de contingencia asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas no acumuladas

11 Tabla de datos muestrales 2 variables nominales X : p categorías (A 1,A 2,...,A p ) Y : q categorías (B 1,B 2,...,B q ) Las respuestas (X k,Y k ) del encuestado k son del tipo (A i,B j ) Encuestado XY 1A3A3 B5B5 2A1A1 B4B4... nA2A2 B1B1 Tabla 1

12 Tabla de contingencia M ij :CANTIDAD DE RESPUESTAS (A i,B j ) p Categorías q CategorÍasq CategorÍas A1A1 A2A2...AjAj.....ApAp Total B1B1 M 11 M 12 M 1. B2B2 M 2..... M ij BiBi BqBq M q1 M q. Total M.1 n

13 ¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia?  Se pierde solamente la identificación de cada encuestado  Se distorsiona la relación entre las dos variables  Se supone un tipo de distribución sobre las dos variables  Elige una de las 3 repuestas

14 RESPUESTA INCORRECTA  Se pierde solamente la identificación de cada encuestado  En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.

15 La tabla de contingencia permite estimar la distribución de probabilidad de:  X+Y  X  (X,Y)  Elige una de las 3 repuestas

16 RESPUESTA INCORRECTA  La repuesta es La distribución conjunta de (X,Y)  En efecto las proporciones M ij /n, que son las frecuencias relativas de encuestados que contestaron (A i, B j ), estiman las probabilidades de la distribución conjunta

17 ¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas M ij ? Si X e Y son independientes, las probabilidades P ij cumplen: 1 2 las probabilidades P ij son todas iguales

18 RESPUESTA INCORRECTA  La repuesta es  En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia

19  Tenemos entonces que estimar las probabilidades P ij bajo la hipótesis nula H o de independencia: con

20 ¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ?  p*q parámetros  p+q-2 parámetros  p+q parámetros

21 RESPUESTA INCORRECTA  La repuesta es p+q-2 parámetros  En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A 1 ), P(X=A 2 ),..., P(X=A p-1 ) y deducir la estimación de P(X=A p ) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.

22 TEST  Consideramos las dos hipótesis:  H 0 : X e Y son independientes  H 1 : X e Y tienen algún grado de dependencia  El estadístico del Test es:

23  Si Qo es el valor observado en la muestra, se rechaza H o si  1  2  3

24 RESPUESTA INCORRECTA  La repuesta es  2  En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.

25 Comandos Statit Trabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones. Realiza el test de tabla de contingencia con Statit: Statistics:  Enumerative Data  Contingency Data  Analyse of Independence  Raw variable: ”Percepcion”;  Column variable: “Marca”  Layout of Table:  Display Column Percentage

26  Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción  Se rechaza la independencia  Se acepta la independencia

27 RESPUESTA INCORRECTA La repuesta es Se rechaza la independencia En efecto el p-valor se obtiene de la tabla Statistic DF Value Prob ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ Chi-Square 28 394.706 0.000

28  Veamos ahora si podemos definir una relación entre la marca y su percepción:  Examine la tabla de contingencia, y  responda la pregunta 1 del test

29 EXPERIENCIA 2  Anova de un factor

30 Búsqueda de una droga para controlar el pulso de pacientes  Ahora estamos interesados en comparar tratamientos para bajar el pulso  Se mide el pulso de pacientes después del tratamiento A, B o C

31 Procedimientos  Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos Las medias y varianzas por grupo  Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos

32 Comandos Statit  Abra el archivo “pulso1.wkr” Statistics  Descriptive tools  Multi-way Univariate Statistics:  Analysis Variable: “pulso”;  Class Variable: “Tratamiento”  Statistics:  Mean y  Standard Desviation  Layout of Table:  Display a summary table...

33 Comandos Statit  Para la realizacion del gráfico:  En Statit con el archivo “pulso1.wkr”: Graphics  Distribution Plots  Box Plot:Variables: “pulso”; DisplayBox: “By group”; Group variable: “Tratamiento”  Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test

34 Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis:  Las varianzas del pulso en los 3 grupos son iguales  Las medias del pulso en los 3 grupos son iguales  La media del tratamiento C es el promedio de las medias de los tratamientos A y B  Elige una de las 3 repuestas

35 RESPUESTA INCORRECTA  La repuesta es Las medias del pulso en los 3 grupos son iguales.  En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas.

36 ANOVA  Consideramos las dos hipótesis  H 0 : μ 1 =μ 2 =μ 3  H 1 : las medias no son iguales  Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos

37  Varianza para el tratamiento j:  Varianza promedio de los 3 grupos:  Varianza de las 3 medias:  Varianza Total:

38 Entonces, elige una de las 3 repuestas

39 RESPUESTA INCORRECTA  La repuesta es  (1) b=0  Además T=w+b  Si q es el numero de grupos, el estadístico : del test es:

40  Para rechazar la hipótesis nula, se espera un estadístico F  Grande  Chico

41 RESPUESTA INCORRECTA  La repuesta es  Grande. Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula.

42 Comandos Statit  En Statit: Statistics  ANOVA  OneWay  Dependente Variable: ”Pulso”;  Classification Variable: “Tratamiento”  Examine los resultados y concluya sobre la hipótesis nula de igualdad de la medias.

43 LA RAZÓN DE CORRELACIÓN  Utilizando el hecho que T=b+w, se construye  Un índice llamado razón de correlación  2 =b/T  Que vale 1 cuando w=0 0 cuando b=0  Utilizando la tabla ANOVA calcule este índice y responda el test

44 EXPERIENCIA 3  Coeficiente de correlación

45 Se busca estudiar la relación entre el peso y la talla de un grupo de niñas  Queremos estudiar el efecto de la edad sobre la relación entre el peso y la talla de las niñas

46 Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe: Si r=1  X e Y son independientes  X e Y son linealmente dependientes

47 RESPUESTA INCORRECTA  La repuesta es  X e Y son linealmente dependientes  En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos  Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.

48 Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla  En Statit:  Statistics  Regresion and Correlation  Correlation coefficiente  Variables: ”Peso” y “Talla”  Observe el valor y el signo del Coeficiente de correlación

49  El calculo anterior fue considerando todas las edades juntas  Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra  En Statit:  Statistics  Regresion and Correlation  Correlation coefficientes  Variables: ”Peso” y “Talla”  Local selection: edad==10  Responda el test


Descargar ppt "LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación."

Presentaciones similares


Anuncios Google