Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento.

Slides:



Advertisements
Presentaciones similares
ANALISIS PARAMÉTRICOS
Advertisements

1.1 Contraste de Bondad de Ajuste para Datos Categóricos
TEMA 6: CONTRASTES NO PARAMÉTRICOS
Técnicas para el análisis de datos en el enfoque cuantitativo
FRANCISCO MARÍN HERRADA
Inferencia estadística
Capítulo 2. Modelos estadísticos en la experimentación comercial
Test de Hipótesis.
Estadísticas Inferenciales Capítulo 10
Pruebas de hipótesis.
KRUSKAL WALLIS Jorge Iván Betancur Marta Isabel Naranjo García
PRUEBA DE HIPOTESIS LUIS FERNANDO TRUJILLO LEYDER JULIAN GOMEZ
Fco. Javier Burguillo Universidad de Salamanca
Variables Aleatorias Continuas
ANÁLISIS DE LA VARIANZA (ANOVA)
U de Mann-Whitney Por Adriana Marcela Ruiz Pineda
CATALINA AGUDELO, HAIDY PAOLA, JULIETH PINO
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
Estadísticos de Prueba en el Modelo de Regresión Múltiple
DISTRIBUCIONES MUESTRALES, DE LAS MUESTRAS O DE MUESTREO
Test de normalidad Test de homoscedasticidad de varianzas
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Introducción a R José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología,
“ Pruebas estadísticas para una muestra” El consumo y producción del pan; Distribución de fármacos y placebos Andrés Cárcamo Camila López Tábata Torres.
EJERCICIOS DE CORRELACIÓN
ANÁLISIS EXPLORATORIO DE DATOS
Análisis no paramétricos
1 Curso SPSS 2005 Profesora: Inmaculada Luengo Merino Tfno: nombre de usuario: cspss contraseña:
TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE
Principios de Bioestadística: «PRUEBA t»
(niveles o categorías)
25. Distribución normal y pruebas de normalidad
Diseño Estadístico y Herramientas para la Calidad
Pronósticos, Series de Tiempo y Regresión
Inferencias con datos categóricos
Distribuciones Muestrales: Propoción, Varianza y cociente de varianzas
Contraste de proporciones
PRUEBAS DE BONDAD DE AJUSTE
Experimentación Numérica
Estimador de Efectos Fijos
Introducción a la Inferencia Estadistica
«Estructura de los Gastos Personales Deducibles de Impuesto a la Renta en el Ecuador en relación a la Encuesta Nacional de Ingresos y Gastos de los Hogares.
Modulo03 – Ejercicio13 Asociar categorías: Test de independencia.
DISTRIBUCIONES MUESTRALES
Nociones Básicas de Análisis Estadístico de Muestras
PRUEBAS ESTADISTICAS NO PARAMETRICAS
PRUEBAS DE HIPÓTESIS Prof. Joan Calventus S.
Análisis de los Datos Cuantitativos
ANÁLISIS DE DATOS ESTADÍSTICOS DE LA ACTIVIDAD FÍSICA
Regresión Lineal Simple
Routing Problem.  Elección de Prueba de Hipótesis  Prueba de Hipótesis  Datos de Entrada  Resultados de la Prueba  Conclusiones.
CONTRASTES NO PARAMÉTRICOS
Estadística Aplicada II PRUEBAS Chi -CUADRADO
Cáp.10 Análisis de Datos Estadística Inferencial -
CONFIRMATORIO EXPLORATORIO  Enfoque descriptivo  Indica hipótesis  Plan de investigación flexible y poco definido  Privilegia la representación grafica.
Curso de Estadística a Distancia El Profesor se va por las ramas… Los alumnos parecen ausentes…
20. Comparación de promedios entre grupos Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
22. Correlación como prueba de hipótesis Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
Pruebas Estadísticas No Paramétricas
16. Asociación estadística y test de independencia
17. Concordancia entre medidas e investigadores Módulo III: Análisis de datos categóricos Análisis de Datos Aplicado a la Investigación Científica
18. Cálculo de la probabilidad exacta de Fisher Módulo III: Análisis de datos categóricos Análisis de Datos Aplicado a la Investigación Científica
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
14. Comparación de frecuencias entre grupos Módulo III: Análisis de datos categóricos Análisis de Datos Aplicado a la Investigación Científica
13. Prueba de bondad de ajuste para frecuencias Módulo III: Análisis de datos categóricos Análisis de Datos Aplicado a la Investigación Científica
RESUMEN DE LA DISTRIBUCION MUESTRAL PARA LA MEDIA MUESTRAL X INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL  TIPO DE PROBLEMA ESPERANZA Y VARIANZA.
PRUEBAS DE HIPÓTESIS Y ESTIMACIÓN.  Constituyen el proceso relacionado con aceptar o rechazar declaraciones acerca de los parámetros de la población.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
PRUEBA DE SIGNIFICANCIA
Distribución Normal de una Variable
Transcripción de la presentación:

Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento de Salud Pública, PUC. Martes 19 de Julio de 2011

2 Test de Kolmogorov-Smirnov > ks.test(x,y) # si x e y tienen la misma distribución Test de Shapiro-Wilk Test de Normalidad H 0 : p 1 = p 2 Son normales H 1 : p 1 ≠ p 2 No son normales Dócima de hipótesis para las pruebas de normalidad Para evaluar la normalidad de un conjunto de datos Con el valor p decidimos si aceptamos o rechazamos la H 0

3 Test de Shapiro-Wilk n<30 # describe mejor cuando los n son pequeños # no significa que no pueda usarse para n>30 sintaxis shapiro.test(name) ejemplo ?shapiro.test name=rnorm(29,0,1) #generación números aleatorios(n,media,sd) mean(name) sd(name) qqnorm(x) qqline(x) shapiro.test(name) #interpretar resultado W= valor del test, p-value. Test de Normalidad

4 Test de Kolmogorov-Smirnov n>30 #evalúa 1 o 2 muestras simulneamente sintaxis ks.test(name,pnorm) ks.test(name1, name2) ejemplo ?ks.test name1=rnorm(500,0,1) #generación números aleatorios(n,media,sd) mean(name1) sd(name1) ks.test(name1,pnorm) # #interpretar resultado KS= valor del test, p-value ks.test(name1,name2) #interpretar resultado KS= valor del test, p-value. Test de Normalidad También hay otras distribuciones disponibles. Las más importantes (y los parámetros necesarios en cada una) son: ks.test(x,ppois,lambda) # si x ~ Poisson con tasa lambda. Ej: ks.test(x,ppois,3) ks.test(x,pbinom,n,p) # si x ~ Binomial con n y p dados.

5 2. Test de Chi-cuadrado X 2 ejemplo Supóngase que la proporción observada de mujeres normales y con cuadros de depresión en una cuadra de la comuna de Maipú es de 29/12, respectivamente. Test Chi-cuadrado. 1 variable categórica con n niveles Cual es la variable y el factor de la variable? H 0 : p 1 = p 2 Las proporciones son iguales H 1 : p 1 ≠ p 2 Las proporciones diferentes sintaxis chisq.test(names) names<-c(valores1, val2….,) sexo<- c(29,12) # vector formado guarda las frecuencias o proporciones

6 > ks.test(x,y) # si x e y tienen la misma distribución ejercicio 1 El 35% de erizos de tierra mantenidos en cautiverio enfermaron y el 65% murió. ¿La proporción de muertos y enfermos es significativamente diferente?. Sin embargo, ½ de los enfermos comen pellet (n=50) y enferman menos que aquellos que tienen una dieta casera (½) y mixta (½). ¿Serán las proporciones observadas diferentes? 2. Test de Chi-cuadrado X 2

7 ejercicio 2 La encuesta nacional de Salud revelo que el 18% de los escolares chilenos es obeso. Supóngase que una muestra obtenida de un colegio privado donde estudian 1200, 240 son obsesos. ¿La proporción observada en el colegio es diferente de los resultados obtenidos en la encuesta nacional? chisq.test(a,p=b) # vector a almacena frecuencias observadas # vector b almacena probabilidades esperadas # Test chi-cuadrado # alternativamente los vectores a y b pueden ir concatenados 2. Test de Chi-cuadrado X 2 Test Chi-cuadrado. 1 variable categórica con n niveles cuando conocemos una proporción H 0 : p = 0.18 H 1 : p ≠ 0.18 sintaxis a<-c(240,960) b<-c(0.18,0.82) chisq.test(a,p=b)

8 2. Test de Chi-cuadrado X 2 Test Chi-cuadrado. 2 variable categórica con n niveles H 0 : p 1 = p 2 No existe asociación son independientes H 1 : p 1 ≠ p 2 Existe asociación no son independientes sintaxis chisq.test(name, correct=F) # chi de Pearson name=matrix(c(valores), nc=columnas)

9 ejercicio 3 Supóngase que interesa saber si sexo da cuenta de la asociación con el parasitismo por la lombriz solitaria Taenia solium. De a base de datos de julio del ISP 2011, resultaron parasitados 38 de 50 y de 60 mujeres sólo 4. Los hombres comen mas carne en cebiche y cruda que las mujeres. Realice el test mas adecuado. 2. Test de Chi-cuadrado X 2

10 ejercicio 4 Interesa determinar si hay diferencias significativas en el porcentaje de personas con depresión entre dos poblaciones A y B. Para esto, se tomó una muestra de 150 personas de la población A y 200 de la población B, encontrándose 45 y 120 personas con depresión en cada una de las ciudades respectivamente. La ciudad B aparentemente esta mas contaminada que la población A. 1. Construya su tabla de contingencia. 2. Realice la rutina en R para obtener el valor de X 2 Pearson. 3. Señale si acepta o rechaza la Ho 2. Test de Chi-cuadrado X 2

11 Chi-cuadrado desde un Dataframe sintaxis chisq.test(namevar1,namevar2, correct=F) # Test X 2 de Pearson. Var1 vs Var2. # Buscando dataframe.txt en el directorio name<-read.table(file.choose(), header=T) attach(name) chisq.test(namevar1,namevar2, correct=F) 2. Test de Chi-cuadrado X 2

12 2. Test de Chi-cuadrado X 2 Test Exacto de Fisher. n< 5 en algunas celdas H 0 : p 1 = p 2 No existe asociación son independientes H 1 : p 1 ≠ p 2 Existe asociación no son independientes sintaxis fisher.test(name, correct=F) # chi2 de Pearson name=matrix(c(valores), nc=columnas) fisher.test(namevar1,namevar2, correct=F) # chi 2de Pearson usando dataframe

13 sintaxis t.test(x) # si vector numérico x tiene media μ=0 (por defecto μ 0 =0) t.test(x,mu=10) # si vector numérico x tiene media μ=10) t.test(x1,x2,paired=T) # si x1-x2 (datos pareados) tiene media 0 T Student comparación de medias: para 1 muestra. 3. T Student H 0 : μ = 0 Media es igual a 0 H 1 : μ ≠ 0 Media diferente de 0 Ejemplo x=rnorm(100,20,1) test.t(x) test(x, mu=20)

14 ejercicio 5 pacienteAntesdespués Resultado Paired t-test data: antes and después t = , df = 9, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of the differences T Student A un total de 10 pacientes con diagnostico de VIH se les midió el número de linfocitos T en la sangre /ml. La siguiente tabla muestra el conteo de linfocitos Antes y después de un tratamiento naturista. Genere los vectores de la tabla conservando los nombres de cabecera. Determine si la intervención es significativa o no.

15 El test t de Student para muestras independientes permite docimar la hipótesis nula de igualdad de promedios de dos vectores numéricos x1 y x2. Es decir, H 0 : μ 1 = μ T Student T Student comparación de medias muestras independientes (N=2). H 0 : μ 1 = μ 2 Media muestra 1 es igual a la media muestra 2 H 1 : μ 1 ≠ μ 2 ambas medias muestréales son diferentes sintaxis t.test(x1,x2) # ambos vectores numéricos

16 Ciudad 1Ciudad Ejercicio 6 Considerando el numero de linfocitos encontrados en 10 pacientes en la ciudad 1 y en 10 pacientes en la ciudad Genere los vectores de la tabla conservando los nombres de cabecera y determine si existen diferencias significativas en el número de linfocitos en ambas ciudades. Resultado Welch Two Sample t-test data: ciudad1 and ciudad2 t = , df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

17 t.test requiere que las muestras estén en columnas distintas, cuando lo habitual es tener los datos en una columna (por ejemplo, en vector x) y los grupos a comparar en otra columna (por ejemplo, en vector grupo, con valores 1 y 2). La solución es: >t.test(x[grupo==1], x[grupo==2]) Ejercicio 7 Tomando los valores de linfocitos y ciudad. Determine si existen diferencias significativas entre una ciudad y otra. Genere los vectores de la tabla conservando los nombres de cabecera. Ciudadlinfocitos ciudad<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2) linfocitos<c(31,157,4,109,283,141,36,164,154,22,71,93,53,240,181,181,64,367,114,48) t.test(linfocitos[ciudad==1],linfocitos[ciudad==2]) Welch Two Sample t-test data: linfocitos[ciudad == 1] and linfocitos[ciudad == 2] t = , df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

18 4. Test kruskall wallis T Kruskal Wallis. comparación de mas de dos medias. H 0 : μ 1 = μ 2 = μ 3 Media muestra 1,2,3 son iguales H 1 : μ 1 ≠ μ 2 ≠ μ 3 ambas medias muestréales son diferentes sintaxis kruskal.test(x,grupos) # si la mediana de x (variable numérica) se # diferencia entre grupos (variable categórica) kruskal.test(list(x1,x2,x3)) # si existe diferencias entre promedios # de x1, x2 y x3 (no requiere variable categórica El test de rangos de Kruskal-Wallis permite comparar el parámetro de tendencia central (mediana) entre dos o más poblaciones. Cuando se comparan solo 2 grupos, el test es equivalente al test de rangos de Wilcoxon.

19 El comando cor permite obtener la correlación entre dos vectores x e y. sintaxis cor(x, y) # correlacion (Pearson) entre x e y. cor.test(x, y) # correlacion (Pearson) entre x e y, test e IC95% Por defecto, cor entrega la correlación de pearson. Con el subcomando method se controla cuál correlación obtener: pearson, spearman o kendall. > cor(x, y,method=“pearson”) # igual a cor(x,y) > cor(x, y,method=“spearman”) # correlacion de Spearman ordinal/continua > cor(x, y,method=“kendall”) # correlacion de Kendall ordinal/ordinal Si hay observaciones faltantes en x o y el comando producirá un error. La opción use=“complete.obs” borra registros con NA en cualquiera de las dos variables. xyz=cbind(x,y,z) > cor(xyz) 4. Test de asociación correlacion

20 Lea la base de datos Litiasis.txt (archivo de texto delimitado por tabulaciones) en R. Observe las características del dataframe como list(), names(), summary() Acceda a los vectores del dataframe usando attach() Determine si existe asociación entre las variables HTA y PESO Determine si existe asociación entre las variables HTA y FUMA. Determine si existe asociación entre las variables EDAD y FUMA. Determine si existe asociación entre TALLA y EDAD. (grafique). Finalmente agregue la siguiente instrucción abline(lm(PESO~TALLA)) ejercicio 8

21 6. Modelos de Regresión. Es una técnica para analizar una variable dependiente numérica (Y) frente a una o mas variables independientes (X) también numéricas sean categóricas o continuas. Formula: Y = β 0 + β 1 x 1 + ……+ β n x n + e Tipos de modelo de regresión 1. Modelos de regresión LinealY= v.a. numérica continua 2. Modelos de regresión Logística Y= v.a. categórica 3. Modelos de regresión Poisson Y= v.a conteo o tasa 6. Modelos de regresión

22 lm (formula = variable Y ~ variable X) Modelos de regresión Lineal simple lm (formula = variable Y ~ variable X1+ variable X2 +…+ variable Xn) Modelos de regresión Lineal múltiple