14. Contrastes no paramétricos

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

DSITRIBUCION T DE STUDENT.
Curso: Seminario de estadística Aplicada a la investigación Educacional UNIVERSIDAD NACIONAL DE EDUCACIÓN ENRIQUE GUZMÁN Y VALLE Alma Máter del Magisterio.
Intervalos de Confianza para la Varianza de la Población
DISEÑO DE EXPERIMENTOS
ESTIMACION DE PARAMETRO
Clase No. 1.
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
Tema 16: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Tema 13. Inferencia estadística Principales conceptos. Muestreo
1.1 Contraste de Bondad de Ajuste para Datos Categóricos
TEMA 6: CONTRASTES NO PARAMÉTRICOS
TEMA 2 MÚLTIPLOS Y DIVISORES
Tema 7: Introducción a la inferencia estadística
SIMULACIÓN DE MONTECARLO
Unidad de competencia II Estadística descriptiva:
Pruebas de significancia para datos cualitativos
Contraste de Hipótesis
Distribuciones de probabilidad bidimensionales o conjuntas
Estimación de parámetros poblacionales
KRUSKAL WALLIS Jorge Iván Betancur Marta Isabel Naranjo García
Matemáticas aplicadas a las CCSS II Ana Pola IES Avempace
Vocabulario querer comerlo -paja por supuesto - madera
La Estadística en 37 preguntas
Inferencia estadística
} LISSET BÁRCENAS MONTERROZA
Parámetros estadísticos
Comprobación de diferencias entre medias
UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA
Ecuaciones Cuadráticas
¡Primero mira fijo a la bruja!
La prueba U DE MANN-WHITNEY
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
INTRODUCCION A LOS CONTRASTES BASADOS EN RANGOS
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
INFERENCIA ESTADISTICA
puede o no ser verdadero, relativo a una o más poblaciones.
Curso de Hidrología Caudales Máximos II
Estimación por intervalos de confianza.
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Estimación por Intervalos de confianza
Introducción Media y varianza poblacional Sea
 La rectoría de una Universidad ha decidido seleccionar aleatoriamente una muestra de dos estudiantes de cada grupo para dar seguimiento a su nivel académico.
ESTADIGRAFOS DE DISPERSION
MUESTREO DE ACEPTACIÓN DE LOTES POR VARIABLES
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Inferencia Estadística
Clases 4 Pruebas de Hipótesis
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Unidad V: Estimación de
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
ESTIMACION POR INTERVALOS
Prof. Rosario Martínez Verdú
Inferencia Estadística
Unidad V: Estimación de
Capítulo 1. Conceptos básicos de la Estadística
CONTRASTE DE HIPOTESIS
Pruebas de hipótesis.

ESTIMACIÓN DE PARÁMETROS
CONTRASTES NO PARAMÉTRICOS
Aspectos generales de la investigación educativa en el SNIT
INFERENCIA ESTADÍSTICA
Pruebas paramétricas y no paramétricas
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
Transcripción de la presentación:

14. Contrastes no paramétricos

Contrastes no paramétricos En la lección anterior nos hemos ocupado de contrastes paramétricos. Determinábamos la plausibilidad de ciertas hipótesis sobre los valores de parámetros poblacionales. Los contrastes no paramétricos hacen referencia a la distribución poblacional en su conjunto: Cómo podemos decidir a partir de una muestra si la población sigue (“ajusta”) a una determinada distribución dada (problema de bondad de ajuste). (2) ¿Estas muestras provienen de poblaciones con la misma distribución? (problema de la homogeneidad). (3) ¿Son independientes o dependientes varias características poblacionales?

Prueba de bondad de ajuste 2 Supongamos una muestra aleatoria simple de tamaño n. Desconocemos que la distribución de probabilidad f de la población. Contrastaremos la hipótesis: H0: f = f0 y H1: f  f0 Es decir: queremos contrastar si la distribución desconocida f de la población es f0, que conocemos completamente (por ejemplo, una distribución de Poisson determinada). Usaremos la distribución chi-cuadrado para determinar la bondad de ajuste entre las frecuencias observadas de los datos de la muestra, frecuencias muestrales, y las frecuencias esperadas (teóricas) según la distribución que sospechamos es la de la población. 6

Procedimiento: Dividimos el dominio completo de la distribución teórica f0 en k clases o intervalos disjuntos. Calculamos el número de datos esperados, según la distribución teórica a contrastar f0 , que deberían haber caído en cada clase. Para ello basta multiplicar la probabilidad que asigna f0 a cada clase por n, el tamaño muestral. Hemos de construir las clases de modo que cada una contenga al menos 5 datos muestrales. Tenemos pues: A1, A2, ... ,Ak clases con n1esp, n2esp, ... ,nkesp datos muestrales en cada clase, donde todos valores tienen que ser mayores o iguales a 5. 7

Ejemplo: Durante 200 días se han recogido el número de accidentes de tráfico diarios: 0 1 2 3 4 5 6 7 Número de días 22 53 58 39 20 5 2 1 (1) Creemos que el número de accidentes se distribuye como una Poisson de media 2 (hipótesis nula). Núm. de accidentes 0 1 2 3 4 5 N. esperado de días 27,06 54,14 54,14 36,08 18,04 10,54 Calculamos los valores esperados a través de la Poisson. Aquí la probabilidad será de 5 a infinito.

Procedimiento: (2) Ahora construimos las mismas k clases o intervalos disjuntos para los datos muestrales. Tendremos también: A1, A2, ... ,Ak clases con n1, n2, ... ,nk datos muestrales en cada clase. Estos son los datos originales: Número de accidentes 0 1 2 3 4 5 6 7 Número de días 22 53 58 39 20 5 2 1 Ajustamos al número de clases que nos determinó la distribución a contrastar. Número de accidentes 0 1 2 3 4 5 Número de días 22 53 58 39 20 8 7

Realizaremos el test de constraste utilizando el estadístico chi-cuadrado siguiente: Frecuencias muestrales Frecuencias esperadas que sigue una distribución chi-cuadrado con k-1 grados de libertad. En nuestro ejemplo tenemos k = 6 clases. Luego:

Nuestro estimador chi-cuadrado vale: El estimador se distribuye como: Supongamos que queremos: En las tablas encontramos: 0.05

Hipótesis compuesta Primero estimaremos por el método de máxima verosimilitud el valor del parámetro :

El valor estimado de  será: Duración 0-200 200-300 300-400 400-500 500-600 # bombillas ni 40 15 8 6 6 xi 100 250 350 450 550 El valor estimado de  será:

Ahora calculamos las probabilidades esperadas: Aquí la probabilidad será de 500 a infinito. Duración 0-200 200-300 300-400 400-500 500-600 # bombillas ni 40 15 8 6 6 xi 100 150 350 450 550 0.59 0.15 0.09 0.06 0.04

Y a partir de ellas podemos calcular los valores esperados de las muestras: Duración 0-200 200-300 300-400 400-500 500-600 # bombillas ni 40 15 8 6 6 xi 100 150 350 450 550 0.59 0.15 0.09 0.06 0.04 44.70 11.04 7.02 4.46 2.84

Como la penúltima categoría da un valor menor que 5, unimos las dos últimas: 12 0.59 0.15 0.09 0.06 0.04 100 150 350 450 550 xi 44.70 11.04 7.02 4.46 2.84 40 15 8 6 6 # bombillas ni 0-200 200-300 300-400 400-500 500-600 Duración 7.30

Nuestro estimador chi-cuadrado vale: El estimador se distribuye como: Esta es la diferencia fundamental con el caso anterior. Al número de clases k hay que restarle 1 y el número de parámetros que previamente hemos estimado. En este caso:  = 1. 0.05

Inteligencia colectiva Los Borg en Star Trek

El público presente corre los 100 metros lisos. Habrá una mejor marca. Ahora, el promedio, ¿estará por encima o por debajo?

La nota media, el salario medio, la altura media, La nota media, el salario medio, la altura media,... parece, que en general, promedio es igual a mediocridad. Sin embargo, en la toma de decisiones o en las estimaciones, a veces, el promedio colectivo puede ser excelente.

“¿Quién quiere ser millonario?” Veamos un ejemplo: “¿Quién quiere ser millonario?” Opción de llamada Opción del público Aciertan el 65% de las veces. Aciertan el 90% de las veces.

“¿Cuántos caramelos hay en el tarro?” Un experimento clásico de inteligencia de grupo “¿Cuántos caramelos hay en el tarro?” En el tarro había 153 caramelos. Grupo de 53 estudiantes. La media fue de 143, un error de un 6 por ciento.

Nieves Concostrina 45 años media: 50. Estimar el peso y la edad de tres de nuestros colaboradores solamente por su voz en antena Nieves Concostrina 45 años media: 50. Pancracio Celdrán 65 años media: 58. Jose Manuel Sánchez 56 años media: 52. Nieves 69 kilos estimaron 66 kilos Pancracio 69 kilos estimaron 75 kilos Jose Manuel 83 kilos estimaron 82 kilos. Hubo nueve personas que hicieron mejor estimación, en valor absoluto que la media del grupo.

Estimar el peso y la edad de tres de nuestros colaboradores solamente por su voz en antena Si sumamos los pesos de Nieves, Pancracio y el comisario, tenemos 221 kilos y la media es 223: ¡sólo 2 kilos de más! Y si sumamos las edades, el resultado es de 166, cuando el grupo estimó 160: 6 años de menos. Tomando así las cosas, nadie en particular se acercó más que la media. Y si nos inventamos los kilo-años, el total sería de 387 kilo-años y el grupo dijo 383: ¡solo 4 kilo-años menos!

En cierto modo, cada miembro del colectivo contribuye con información fetén + error, y en el promedio, los errores se compensan. De modo que, dadas las circunstancias adecuadas, los grupos manifiestan una inteligencia notable, con frecuencia superando a sus miembros más inteligentes o informados.

¿Se está usando este conocimiento para mejorar los resultados en alguna actividad?  Todos conocemos los sondeos de intención de voto a pie de urna. A partir de esa muestra se hace una predicción del resultado de las elecciones. Existe una alternativa que utiliza la sabiduría colectiva: consiste en preguntar a un conjunto de personas, no qué van a votar, sino que predigan qué votará el conjunto del país. En Internet pueden encontrar los resultados de algunos experimentos. Tienen que buscar por IEM, Iowa Electronic Markets. Y comprobarán que sorprendentemente las predicciones del colectivo son mejores que las clásicas encuestas.

¿Existirá algo así como creatividad artística colectiva? Karaoke

Karaoke ¿Existirá algo así como creatividad artística colectiva? “Experto en cocina marítima” de los “No me pises que llevo chanclas”.

Ana Sergio Pablo Grupo

... con Kevin McCourt Cuadros colectivos (2) Relatos colectivos A C B

Prueba de homogeneidad Supongamos que disponemos de los datos de m muestras aleatorias y deseamos saber si podemos decidir si provienen de la misma distribución poblacional. Tamaño total de todas las muestras. Tamaño de la muestra m. Nuevamente hemos de dividir el conjunto de observaciones en k clases: A1, A2, ... ,Ak clases determinadas por los valores esperados (en cada clase, todos valores mayores o iguales a 5). Pero ahora lo haremos m veces.

El estadístico de contraste será ahora: Número total de elementos de la muestra i Frecuencia muestral de la clase j de la muestra i El estadístico seguirá una distribución chi-cuadrado de (m-1)(k-1) grados de libertad. Suma de las frecuencias muestrales de todas las clases número i

Prueba de independencia Supongamos que de n elementos de una población se han observado dos características X e Y. Es decir: disponemos de los datos de una muestra aleatoria simple bidimensional: Deseamos contrastar si las características poblacionales X e Y son independientes o no. Nuevamente hemos de dividir el conjunto de observaciones en k clases: A1, A2, ... ,Ak clases determinadas por los valores esperados de X y en r clases: B1, B2, ... ,br para Y. (De nuevo en cada clase, todos valores mayores o iguales a 5)

El estadístico de contraste será ahora: Número total de elementos de la clase j de Y con el resto de clases de X Frecuencia muestral de la clase (i, j) (X,Y). El estadístico seguirá una distribución chi-cuadrado de (k-1)(r-1) grados de libertad. Número total de elementos de la clase i de X con el resto de clases de Y

Contraste de Kolmogorov-Smirnov El contraste K-S de bondad de ajuste es válido solo para distribuciones continuas. (1) Se ordenan los n valores muestrales: (2) Se calcula la distribución empírica de la muestra:

Se calcula la discrepancia máxima, que será el estimador que usaremos, entre la función de distribución empírica que acabamos de calcular y la distribución teórica F0 que estamos contrastando: cuya distribución es conocida y tenemos tabulada según los valores de n.

CONTRASTE DE HIPOTESIS Normalidad (ó n>30): t-test Media: Media: No normalidad y n<30: realizamos contrastes no-paramétricos sobre la mediana: test de los signos, test de los rangos con signo (requiere simetría) Desv. Típica ó varianza: Test chi-cuadrado: requiere normalidad Mediana: Test de los signos, test de los rangos signados (requiere simetría) Igualdad de varianzas: F-test: requiere normalidad en ambas poblaciones.

CONTRASTE DE HIPOTESIS Igualdad de medias/medianas: Muestras normales e Independientes (ó n>30): Muestras normales, Datos pareados: Alguna variable no es normal y n<30: contrastamos la igualdad de las medianas (test de Mann- Whitney) ¿Son iguales las varianzas? ¿Es normal la variable D (diferencia) (ó n>30)? (intervalo para el cociente de varianzas ó F-test) SI: t-test sobre D NO: test de los signos ó rangos signados para ver si la mediana de D es 0 SI NO (en ambos casos, t-test)

CONTRASTE DE HIPOTESIS Otros tests (no paramétricos): Igualdad de distribuciones: Test de Kolmogorov-Smirnov Bondad de ajuste: Test de la chi-cuadrado (ojo, frec. esp. >5, número suficiente de datos); en el caso de normalidad, tests de normalidad. Independencia entre variables: Test chi-cuadrado (ojo, frec. esp.>5).