Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porPaulino Chica Modificado hace 9 años
1
LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación
2
EXPERIENCIA 1 Estudio de una tabla de contingencia
3
¿En qué se parecen estas interrogantes? ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales? ¿Depende del colegio de egreso el puntaje obtenido en la PSU? ¿Depende del sexo la marca de cigarrillo escogida?
4
Las preguntas involucran Una variable 2 variables Más de dos variables Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.
5
RESPUESTA INCORRECTA Hay dos variables en cada problema ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales? El ingreso y la carrera profesional ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud? El puntaje de la PSU y el colegio ¿Depende del sexo la marca de cigarrillo escogida? La marca de cigarrillo y el sexo
6
La pregunta que se quiere contestar en cada caso es ¿Las variables siguen una distribución normal? ¿La muestra es representativa de la población? ¿Las variables son independientes ó dependientes? Para seleccionar su repuesta identifique el tipo y el número de variables de interés.
7
RESPUESTA INCORRECTA Se busca saber si hay o hay una relación entre las dos variables en cada problema ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales? ¿El ingreso depende de la carrera profesional? ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud? ¿El puntaje de la PSU depende del colegio donde se estudio? ¿Depende del sexo la marca de cigarrillo escogida? ¿Los hombres o las mujeres tienen una preferencia para una marca de cigarrillo?
8
Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados. En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres: Alezan; Corsario; Fontenoy; Icaro y Zodiaco. con una de las 8 categorías Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.
9
Pregunta a responder en esta experiencia: ¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada por los posibles consumidores?
10
Tabla de Contingencia Aquí tenemos dos variables X e Y nominales. Construiremos la tabla de contingencia asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas no acumuladas
11
Tabla de datos muestrales 2 variables nominales X : p categorías (A 1,A 2,...,A p ) Y : q categorías (B 1,B 2,...,B q ) Las respuestas (X k,Y k ) del encuestado k son del tipo (A i,B j ) Encuestado XY 1A3A3 B5B5 2A1A1 B4B4... nA2A2 B1B1 Tabla 1
12
Tabla de contingencia M ij :CANTIDAD DE RESPUESTAS (A i,B j ) p Categorías q CategorÍasq CategorÍas A1A1 A2A2...AjAj.....ApAp Total B1B1 M 11 M 12 M 1. B2B2 M 2..... M ij BiBi BqBq M q1 M q. Total M.1 n
13
¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia? Se pierde solamente la identificación de cada encuestado Se distorsiona la relación entre las dos variables Se supone un tipo de distribución sobre las dos variables Elige una de las 3 repuestas
14
RESPUESTA INCORRECTA Se pierde solamente la identificación de cada encuestado En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.
15
La tabla de contingencia permite estimar la distribución de probabilidad de: X+Y X (X,Y) Elige una de las 3 repuestas
16
RESPUESTA INCORRECTA La repuesta es La distribución conjunta de (X,Y) En efecto las proporciones M ij /n, que son las frecuencias relativas de encuestados que contestaron (A i, B j ), estiman las probabilidades de la distribución conjunta
17
¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas M ij ? Si X e Y son independientes, las probabilidades P ij cumplen: 1 2 las probabilidades P ij son todas iguales
18
RESPUESTA INCORRECTA La repuesta es En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia
19
Tenemos entonces que estimar las probabilidades P ij bajo la hipótesis nula H o de independencia: con
20
¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ? p*q parámetros p+q-2 parámetros p+q parámetros
21
RESPUESTA INCORRECTA La repuesta es p+q-2 parámetros En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A 1 ), P(X=A 2 ),..., P(X=A p-1 ) y deducir la estimación de P(X=A p ) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.
22
TEST Consideramos las dos hipótesis: H 0 : X e Y son independientes H 1 : X e Y tienen algún grado de dependencia El estadístico del Test es:
23
Si Qo es el valor observado en la muestra, se rechaza H o si 1 2 3
24
RESPUESTA INCORRECTA La repuesta es 2 En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.
25
Comandos Statit Trabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones. Realiza el test de tabla de contingencia con Statit: Statistics: Enumerative Data Contingency Data Analyse of Independence Raw variable: ”Percepcion”; Column variable: “Marca” Layout of Table: Display Column Percentage
26
Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción Se rechaza la independencia Se acepta la independencia
27
RESPUESTA INCORRECTA La repuesta es Se rechaza la independencia En efecto el p-valor se obtiene de la tabla Statistic DF Value Prob ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ Chi-Square 28 394.706 0.000
28
Veamos ahora si podemos definir una relación entre la marca y su percepción: Examine la tabla de contingencia, y responda la pregunta 1 del test
29
EXPERIENCIA 2 Anova de un factor
30
Búsqueda de una droga para controlar el pulso de pacientes Ahora estamos interesados en comparar tratamientos para bajar el pulso Se mide el pulso de pacientes después del tratamiento A, B o C
31
Procedimientos Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos Las medias y varianzas por grupo Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos
32
Comandos Statit Abra el archivo “pulso1.wkr” Statistics Descriptive tools Multi-way Univariate Statistics: Analysis Variable: “pulso”; Class Variable: “Tratamiento” Statistics: Mean y Standard Desviation Layout of Table: Display a summary table...
33
Comandos Statit Para la realizacion del gráfico: En Statit con el archivo “pulso1.wkr”: Graphics Distribution Plots Box Plot:Variables: “pulso”; DisplayBox: “By group”; Group variable: “Tratamiento” Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test
34
Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis: Las varianzas del pulso en los 3 grupos son iguales Las medias del pulso en los 3 grupos son iguales La media del tratamiento C es el promedio de las medias de los tratamientos A y B Elige una de las 3 repuestas
35
RESPUESTA INCORRECTA La repuesta es Las medias del pulso en los 3 grupos son iguales. En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas.
36
ANOVA Consideramos las dos hipótesis H 0 : μ 1 =μ 2 =μ 3 H 1 : las medias no son iguales Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos
37
Varianza para el tratamiento j: Varianza promedio de los 3 grupos: Varianza de las 3 medias: Varianza Total:
38
Entonces, elige una de las 3 repuestas
39
RESPUESTA INCORRECTA La repuesta es (1) b=0 Además T=w+b Si q es el numero de grupos, el estadístico : del test es:
40
Para rechazar la hipótesis nula, se espera un estadístico F Grande Chico
41
RESPUESTA INCORRECTA La repuesta es Grande. Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula.
42
Comandos Statit En Statit: Statistics ANOVA OneWay Dependente Variable: ”Pulso”; Classification Variable: “Tratamiento” Examine los resultados y concluya sobre la hipótesis nula de igualdad de la medias.
43
LA RAZÓN DE CORRELACIÓN Utilizando el hecho que T=b+w, se construye Un índice llamado razón de correlación 2 =b/T Que vale 1 cuando w=0 0 cuando b=0 Utilizando la tabla ANOVA calcule este índice y responda el test
44
EXPERIENCIA 3 Coeficiente de correlación
45
Se busca estudiar la relación entre el peso y la talla de un grupo de niñas Queremos estudiar el efecto de la edad sobre la relación entre el peso y la talla de las niñas
46
Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe: Si r=1 X e Y son independientes X e Y son linealmente dependientes
47
RESPUESTA INCORRECTA La repuesta es X e Y son linealmente dependientes En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.
48
Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla En Statit: Statistics Regresion and Correlation Correlation coefficiente Variables: ”Peso” y “Talla” Observe el valor y el signo del Coeficiente de correlación
49
El calculo anterior fue considerando todas las edades juntas Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra En Statit: Statistics Regresion and Correlation Correlation coefficientes Variables: ”Peso” y “Talla” Local selection: edad==10 Responda el test
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.